INGENIERÍA - decsai.ugr.es · formato de esta memoria, así como a to dos ... distribuciones...

UNIVERSIDAD DE GRANADA

E.T.S. DE INGENIERÍA

INFORMÁTICA

Departamento de Cien ias de la Computa ión

e Inteligen ia Arti ial

MEDIDAS DE ENTROPÍA Y DISTANCIA EN CONJUNTOS

CONVEXOS DE PROBABILIDAD: DEFINICIONES Y

APLICACIONES

TESIS DOCTORAL

Joaquín Abellán Mulero

Granada, O tubre de 2002

CONVEXOS DE PROBABILIDAD: DEFINICIONES Y APLICACIONES

MEMORIA QUE PRESENTA

JOAQUÍN ABELLÁN MULERO

PARA OPTAR AL GRADO DE DOCTOR EN MATEMÁTICAS

OCTUBRE 2002

DIRECTOR

SERAFÍN MORAL CALLEJÓN

DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN

E INTELIGENCIA ARTIFICIAL

E.T.S. DE INGENIERÍA INFORMÁTICA UNIVERSIDAD DE GRANADA

La memoria titulada Medidas de entropía y distan ia en onjuntos onvexos de pro-

babilidad: deni iones y apli a iones, que presenta D. Joaquín Abellán Mulero para optar

al grado de DOCTOR, ha sido realizada en el Departamento de Cien ias de la Computa ión

e Inteligen ia Arti ial de la Universidad de Granada bajo la dire ión del Do tor D. Serafín

Moral Callejón.

Granada, O tubre de 2002

El do torando El dire tor

Joaquín Abellán Mulero Serafín Moral Callejón

AGRADECIMIENTOSEn primer lugar he de mostrar mi más profundo agrade imiento al do tor

D. Serafín Moral Callejón dire tor de esta memoria por su apoyo onstante.

Sin su ayuda, esfuerzo y dedi a ión nun a habría sido apaz de realizar

este trabajo. También quiero agrade er al Dr. D. Andrés Cano Utrera por

el apoyo prestado en todo momento y en espe ial en la elabora ión del

formato de esta memoria, así omo a todos los miembros de los grupos de

investiga ión que hi ieron posible el proye to Elvira, de uyas herramientas

me he servido para las pruebas de los métodos de lasi a ión que se

presentan. Finalmente no quiero olvidar el agrade er a mi esposa Loli su

ayuda y sobre todo pa ien ia.

A la memoria de mi padre

a Loli

CONVEXOS DE PROBABILIDAD: DEFINICIONES Y APLICACIONES

JOAQUÍN ABELLÁN MULERO

Índi e general

Introdu ión general y objetivos. 1

1. Representa ión de la informa ión a través de probabilidades impre isas 9

1.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2. Conjuntos onvexos de distribu iones de probabilidad . . . . . . . . . . . . . . . 12

1.2.1. Representa ión de onjuntos onvexos de distribu iones de probabilidad 13

1.2.1.1. Representa ión a través de puntos extremos . . . . . . . . . . . 14

1.2.1.2. Representa ión a partir de restri iones lineales . . . . . . . . . 16

1.2.2. Opera iones on onjuntos onvexos de distribu iones de probabilidad . 17

1.2.3. Esperanzas superiores e inferiores . . . . . . . . . . . . . . . . . . . . . . 19

1.3. Capa idades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.4. Probabilidades inferiores oherentes . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.5. Capa idades de orden 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.5.1. Capa idades de orden n > 2 . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.6. Intervalos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.6.1. Fun iones de reen ia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.6.2. Rela ión on otros modelos . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.6.3. Posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.6.4. In lusión, marginaliza ión e independen ia de fun iones de reen ia . . . 36

2. Trabajos previos sobre in ertidumbre 39

2.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.2. Teoría lási a de la informa ión . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.2.1. Medidas lási as de in ertidumbre . . . . . . . . . . . . . . . . . . . . . 42

ii Índice general

2.2.1.1. Medida de informa ión de Hartley . . . . . . . . . . . . . . . . 42

2.2.1.2. Entropía de Shannon . . . . . . . . . . . . . . . . . . . . . . . 45

2.2.2. Prin ipios de in ertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.3. In ertidumbre en la teoría de la eviden ia . . . . . . . . . . . . . . . . . . . . . 56

2.3.1. Tipos de in ertidumbre en la teoría de la eviden ia . . . . . . . . . . . . 57

2.3.2. Medidas de in ertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . 61

2.3.2.1. Medidas de no-espe i idad . . . . . . . . . . . . . . . . . . . . 61

2.3.2.2. Medidas de aleatoriedad . . . . . . . . . . . . . . . . . . . . . . 66

2.3.2.3. Medidas de in ertidumbre total . . . . . . . . . . . . . . . . . . 71

2.3.3. Medida de in ertidumbre total de Maeda e I hihashi . . . . . . . . . . . 72

2.3.4. El fa tor de Kulba k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

2.3.4.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

2.4. Con lusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3. Medidas de in ertidumbre para onjuntos onvexos de distribu iones de

probabilidad 87

3.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.2. Tipos de in ertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

3.3. Medidas entrópi as . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

3.3.1. Entropía del entro de masas y entropía media de los vérti es de un

onjunto onvexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

3.3.2. El máximo de la entropía de Shannon para onjuntos onvexos . . . . . 102

3.3.2.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

3.4. Un algoritmo de máxima entropía para intervalos de

probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

3.5. Medidas de no-espe i idad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

3.5.1. El volumen omo medida de no-espe i idad . . . . . . . . . . . . . . . 112

3.5.2. Máxima diferen ia de entropías . . . . . . . . . . . . . . . . . . . . . . . 116

3.5.2.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

3.5.3. Amplia ión de la U-un ertainty . . . . . . . . . . . . . . . . . . . . . . . 120

3.5.3.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

3.6. Aditividad de las fun iones de in ertidumbre . . . . . . . . . . . . . . . . . . . . 133

Índice general iii

3.7. Medidas de in ertidumbre total para onjuntos onvexos . . . . . . . . . . . . . 138

3.8. Con lusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

3.9. Apéndi es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

3.9.1. Apéndi e A: Propiedades del operador diferen ias su esivas . . . . . . . 143

3.9.2. Apéndi e B: Cál ulo del volumen del poliedro probabilísti o . . . . . . . 148

4. Distan ias y medidas de in lusión sobre onjuntos onvexos de distribu iones

de probabilidad 153

4.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

4.2. Distan ias entre dos probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . 155

4.3. Aproxima ión de un onjunto onvexo de distribu iones de probabilidad por

una distribu ión de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 155

4.4. Distan ia de in onsisten ia entre dos onjuntos onvexos de distribu iones de

probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

4.5. Índi e de in lusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

4.6. Distan ia informativa entre dos onjuntos onvexos de distribu iones de proba-

bilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

4.7. Rela iones y propiedades generales . . . . . . . . . . . . . . . . . . . . . . . . . 163

4.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

4.9. Con lusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

5. Constru ión de árboles de lasi a ión utilizando probabilidades impre i-

sas 167

5.1. Introdu ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

5.2. Exposi ión de los métodos de lasi a ión . . . . . . . . . . . . . . . . . . . . . 174

5.2.1. El modelo de Diri hlet impre iso . . . . . . . . . . . . . . . . . . . . . . 174

5.2.2. Nota iones y herramientas previas . . . . . . . . . . . . . . . . . . . . . 176

5.3. Obten ión del árbol de lasi a ión . . . . . . . . . . . . . . . . . . . . . . . . . 178

5.3.1. Método simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

5.3.2. Método doble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

5.3.3. De isión en las hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

5.4. Experimenta ión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

5.4.1. Las bases de datos utilizadas . . . . . . . . . . . . . . . . . . . . . . . . 190

iv Índice general

5.4.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

5.4.2.1. Resultados del método simple . . . . . . . . . . . . . . . . . . . 192

5.4.2.2. Resultados del método doble . . . . . . . . . . . . . . . . . . . 198

5.5. Con lusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

Con lusiones y trabajos futuros 205

Bibliografía 210

Índi e de guras

1.1. Rela iones de generalidad entre teorías basadas en probabilidades impre isas . . 11

1.2. Representa ión de una distribu ión de probabilidad sobre IR3. . . . . . . . . . 15

1.3. Conjunto onvexo del ejemplo 1.2 . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.4. Conjunto onvexo aso iado a la a.b.p. del ejemplo 1.13 . . . . . . . . . . . . . . 33

2.1. Tipos de in ertidumbre en ontradas en las distintas teorías . . . . . . . . . . . . 58

2.2. Conjunto onvexo aso iado a m del ejemplo 2.7 . . . . . . . . . . . . . . . . . . 74

2.3. Conjunto onvexo aso iado a m′del ejemplo 2.7 . . . . . . . . . . . . . . . . . . 75

3.1. Conjunto onvexo aso iado a m1del ejemplo 3.1 . . . . . . . . . . . . . . . . . 91

3.5. Conjuntos onvexos aso iados a m5y m6

del ejemplo 3.3 . . . . . . . . . . . . . 94

3.6. Conjuntos onvexos aso iados a m1 y m2 del ejemplo 3.5 . . . . . . . . . . . . . 99

3.7. Conjunto onvexo aso iado a m3 del ejemplo 3.5 . . . . . . . . . . . . . . . . . 99

3.8. Conjunto onvexo aso iado a m4 del ejemplo 3.6 . . . . . . . . . . . . . . . . . 100

3.9. Conjuntos onvexos aso iado a los onvexos C1 y C2 del ejemplo 3.7 . . . . . . 102

3.10. Conjunto onvexo aso iado al onvexo C del ejemplo 3.8 . . . . . . . . . . . . . 103

3.11. Conjunto onvexo aso iado a m1y m2

del ejemplo 3.10 . . . . . . . . . . . . . . 111

3.13. Conjunto onvexo C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

3.14. Conjuntos onvexos aso iados a los onvexos C1y C2

del ejemplo 3.13 . . . . . 122

3.15. Conjuntos onvexos aso iados a los onvexos C3y C4

del ejemplo 3.13 . . . . . 123

3.16. Conjuntos onvexos aso iado a los onvexos C ′2y C ′4

del ejemplo 3.14 . . . . . 124

vi Índice de figuras

3.17. Conjuntos onvexos aso iado a los onvexos C y Cmdel ejemplo 3.19 . . . . . . 129

4.1. Conjuntos onvexos on distintos grados de in onsisten ia . . . . . . . . . . . . 157

4.2. Conjuntos onvexos oherentes on el ejemplo del fútbol . . . . . . . . . . . . . 164

5.1. Base de datos Cán er . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

5.2. Obten ión de un árbol de lasi a ión . . . . . . . . . . . . . . . . . . . . . . . 169

5.3. Clasi a ión de un nuevo individuo . . . . . . . . . . . . . . . . . . . . . . . . . 169

5.4. Red de reen ia del naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

5.5. Representa ión del onjunto onvexo del ejemplo 5.2 . . . . . . . . . . . . . . . 178

5.6. Situa ión de partida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

5.7. Situa ión obtenida apli ando el método simple . . . . . . . . . . . . . . . . . . 186

5.8. Situa ión obtenida apli ando el método doble . . . . . . . . . . . . . . . . . . . 188

5.9. Situa ión obtenida apli ando los métodos simple y doble a la rama T=a0 . . . 189

Índi e de tablas

1.1. Vérti es del onvexo aso iado a una a.b.p. de dimensión 3 . . . . . . . . . . . . 33

2.1. Valores de la distribu ión onjunta de X1 y X2 . . . . . . . . . . . . . . . . . . 53

2.2. Resultados de las probabilidades de la simpli a ión S1 . . . . . . . . . . . . . 54

2.3. Resultados de las probabilidades de la simpli a ión S2 . . . . . . . . . . . . . 54

2.4. Valores de la entropías resultantes de las simpli a iones S1 y S2 . . . . . . . . 54

2.5. Medidas de in ertidumbre en la teoría de la eviden ia . . . . . . . . . . . . . . . 71

5.1. Des rip ión de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 191

5.2. Por entajes de otros métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

5.3. Resultados método simple para TU1 on domina ia fuerte . . . . . . . . . . . . 193

5.8. Número de hojas de los árboles de lasi a ión obtenidos on el método simple

y ada una de las fun iones de in ertidumbre . . . . . . . . . . . . . . . . . . . 197

5.9. Resultados, para ada una de las fun iones de in ertidumbre, del método simple

on lasi a ión ompleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

5.10. Resultados método doble para TU1 on domina ia fuerte . . . . . . . . . . . . . 198

viii Índice de tablas

5.15. Resultados, para ada una de las fun iones de in ertidumbre, del método doble

on lasi a ión ompleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

5.16. Número de hojas de los árboles de lasi a ión obtenidos on el método doble

y ada una de las fun iones de in ertidumbre . . . . . . . . . . . . . . . . . . . 201

5.17. Por entajes de los métodos C4.5 e ingenuo Bayes sobre Monks1 . . . . . . . . . 202

5.18. Por entajes de los métodos de in ertidumbre simple y doble sobre Monks1 on

TU1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

5.19. Por entajes sobreMonks1 de los métodos simple y doble para todas la fun iones

de in ertidumbre y on dominan ia fuerte . . . . . . . . . . . . . . . . . . . . . 202

5.20. Por entajes sobreMonks1 de los métodos simple y doble para todas la fun iones

de in ertidumbre on lasi a ión ompleta . . . . . . . . . . . . . . . . . . . . 203

Introdu ión general y objetivos

Hasta ha e unos años, para representar la informa ión disponible o la ausen ia de ésta,

se utilizaba omo herramienta fundamental la teoría de la probabilidad, donde se estable ía

de forma ja la probabilidad de un su eso determinado. Gra ias al teorema de Bayes y al

teorema de la probabilidad total, era posible la a tualiza ión de esta probabilidad uando se

obtiene un aporte nuevo de informa ión. Este punto de vista lási o no se ha dese hado, pues

en determinadas situa iones es fundamental su uso, pero, en nuestra opinión, es insu iente

en otras.

Para las situa iones donde el uso de la teoría de la probabilidad no es totalmente oherente

han apare ido nuevas teorías, algunas de las de ellas se basan en probabilidades impre isas.

Entre las más ono idas pueden itarse las siguientes: teoría de la eviden ia, onjuntos de

intervalos de probabilidad, apa idades de orden 2, probabilidades superiores e inferiores o

onjuntos onvexos de distribu iones de probabilidad.

La más general de estas teorías es la de onjuntos onvexos de distribu iones de probabi-

lidad. Fue Dempster [25 el primero que empezó a uestionar el sentido del uso de la teoría

de la probabilidad en determinadas situa iones y ya enton es omenzó a onsiderar onjuntos

onvexos de distribu iones de probabilidad. Pero quizá omo autor mas importante en la lí-

nea de la justi a ión del uso de onjuntos onvexos tenemos que itar a Walley [96. Otros

trabajos importantes en la línea del anterior surgen en el mismo año, tales omo los trabajos

de Cano, Moral y Verdegay-López [12 y de Moral y de Campos [74.

Es ierto que la tenden ia humana, para dar la redibilidad que tenemos de que un su eso

o urra, es la de intervalos de probabilidad. A un experto, en un determinado ampo tal omo la

medi ina, astronomía, botáni a, e onomía, et ..., le es más fá il de ir que el su eso S tiene una

probabilidad entre un a% y un b% de o urrir. A favor de la teoría que modeliza este tipo de

situa iones, onjuntos de intervalos de probabilidad, tenemos que existen importantes herra-

2 Introducción general y objetivos

mientas para trabajar on la informa ión que nos representan, tales omo ondi ionamiento y

marginaliza ión, que nos permiten a tualizar la informa ión en el sistema que nos en ontremos

(de Campos, Huete y Moral [10). Pero en ontra de ella, tenemos que no siempre, el uso de

probabilidades intervalares, nos va a permitir utilizar orre tamente la informa ión disponible.

En el aso de que tengamos un sistema on tres valores posibles y tengamos informa ión para

onsiderar el onjunto de distribu iones de probabilidad que sean una ombina ión onvexa de

las distribu iones de probabilidad (1, 0, 0) y (0, 0.5, 0.5), el usar probabilidades intervalares nos

lleva a la amplia ión del onjunto de probabilidades, teniendo, en este ejemplo, que onsiderar

el onvexo determinado por las probabilidades anteriores y además (0.5, 0, 0.5) y (0.5, 0.5, 0).

En ambio, la teoría de onjuntos onvexos de distribu iones de probabilidad pade e de

problemas tales omo la apari ión de varios puntos de vista, ada uno válido en su ontexto,

para la a epta ión de on eptos importantes tales omo los de la independen ia ([23) y el

ondi ionamiento ([32). A n de uni ar riterios dentro del ampo de las probabilidades

impre isas, surgen los ongresos ISIPTA (International Symposium on Impre ise Probabilities

and Their Appli ations) en los últimos años (1999, 2001).

Una vez utilizada una teoría para representar la informa ión, podemos pensar en la in er-

tidumbre, o falta de informa ión, que esa representa ión onlleva. Originalmente el estudio

de la in ertidumbre surge en los sistemas de tele omuni a ión. Fue Hartley [41 el primero en

estable er una medida de la in ertidumbre en este ampo, que posteriormente fue adaptada a

otros, basándose en la teoría de onjuntos. Pero Shannon [90 fue el que estable ió, en base a

la teoría de la probabilidad, la medida de entropía, que es el punto de ini io de lo que poste-

riormente se ha llamado estudio de la in ertidumbre basada en la informa ión, en teorías más

generales a la de la probabilidad. Esta medida umple una serie de propiedades similares a las

de la teoría de la probabilidad, lo que le ha overtido en el punto de referen ia del estudio de

la in ertidumbre en teoría más generales. En esta línea tenemos que desta ar sobre todo los

trabajos realizados en la teoría de la eviden ia por Klir de forma individual ([50, 51, 53, 54)

o on otros autores ([55, 56, 57, 58, 59, 61, 62, 94).

Klir [54 re oge los llamados prin ipios de in ertidumbre: de mínima in ertidumbre, de

máxima in ertidumbre y de in ertidumbre invariante. Éstos los podemos onsiderar omo

prin ipios para la entropía, pues están planteados en base a la entropía de Shannon, aunque

los plantea de forma general para ualquier teoría. Son on eptos esen iales a tener en uenta

en ualquier teoría sustituyendo la entropía de Shannon por una medida similar en ada una.

El estudio de la in ertidumbre en la teoría de la eviden ia omienza on la uestión de qué

tipo o tipos de in ertidumbre nos en ontramos en esta teoría. Se plantea si la in ertidumbre

de tipo entrópi o, en el sentido de la entropía de Shannon, es la úni a magnitud que hay que

onsiderar para medir la falta de informa ión. La amplia ión de la teoría de la probabilidad

por la teoría de la eviden ia da lugar a situa iones en la el planteamiento sólo entrópi o es

insu iente. Así surgen en los años 90 una gran antidad de trabajos en esta línea. Se pretende

uanti ar dos tipos de in ertidumbre en ontrada en la teoría de la eviden ia: entropía y no-

espe i idad. Fueron Lamata y Moral [65 los primeros en estable er una medida global de

ambos tipos de in ertidumbre en la teoría de la eviden ia. Posteriormente surgen distintos

trabajos donde se pretende medir un tipo u otro de in ertidumbre así omo el estable er una

medida global, a los itados anteriormente de Klir y Lamata y Moral tenemos que añadir los

de Yager [109, Ramer [83, 84, Maeda, Nguyen e I hihashi [70, Dubois y Prade [29 y sobre

todo Maeda e I hihashi [69 que estable en una medida de in ertidumbre total, basándose

en medidas bien estable idas para ada tipo de in ertidumbre, que es apaz de umplir las

propiedades esen iales de una medida para tal n. Estas propiedades tienen su origen en las

que veri a la entropía de Shannon para probabilidades y ha sido el punto de referen ia para

a eptar o dese har de alguna forma, a otras medidas dentro de la teoría de la eviden ia. La

propiedad bási a, dentro de la teoría de la eviden ia, de la subaditividad ha sido el talón de

Aquiles para mu has de ellas.

El desarrollo de la teoría de onjuntos onvexos de intervalos de probabilidad, nos ha lle-

vado a ampliar el estudio de la in ertidumbre a éstos, teniendo omo punto de partida el

amplio estudio de la in ertidumbre en la teoría de la eviden ia. Hemos analizado los tipos de

in ertidumbre en ontrados y hemos medidas para ada uno de ellos.

La lasi a ión es un importante problema en el que la teoría lási a de la probabilidad

ha sido usada de forma extensiva. Se parte del objetivo de obtener un método para prede-

ir el valor de un atributo (variable a lasi ar) de un individuo en base a un onjunto de

otros atributos. Tenemos un onjunto de datos on todos los atributos de los individuos y

queremos obtener un onjunto de leyes para asignar a ada nueva observa ión un valor de la

variable a lasi ar. La lasi a ión tiene notables apli a iones en medi ina, físi a, re ono i-

miento de ara teres, astronomía, e onomía, et ...Con objetivos tales omo re ono imiento de

enfermedades, predi iones meteorológi as, on esiones de prestamos, et ...

Los métodos de lasi a ión, normalmente, se basan en un modelo grá o que ayuda a

representar el ono imiento obtenido de los datos. Existen múltiples formas de representar

este ono imiento tales omo redes neuronales, redes de reen ia, árboles, et ...

Las redes de reen ia, también llamadas bayesianas, han demostrado, en los últimos años,

ser una herramienta muy potente para representar las rela iones entre las variables de una

base de datos a partir de éstos. No es fá il de obtener es un método de lasi a ión a partir

de una red de reen ia, pues en prin ipio representan a unos datos en on reto y no tiene en

uenta a la variable a lasi ar de forma individual. A id [6 utiliza redes de reen ia para

obtener métodos de lasi a ión, obteniendo buenos resultados. El método de lasi a ión del

ingenuo Bayes obtiene muy buenos resultados basándose en una red de reen ia simple, Duda

y Hart [28.

Una herramienta más simple que las redes de reen ia, son los árboles de lasi a ión,

que su origen en el algoritmo ID3 de Quinlan, Quinlan [81. Son las estru turas sen illas que

nosotros utilizaremos para estable er nuestros métodos de lasi a ión.

El gran problema, tanto de las redes de reen ia bayesianas omo de los árboles de lasi-

a ión, es determinar ómo de omplejas deben de ser los modelos indu idos para un problema

on reto. Modelos muy sen illos dan lugar a una pérdida de informa ión (ignoramos rela iones

entre las variables dato y las variables a lasi ar). Modelos muy omplejos produ en sobrea-

juste (hay demasiados parámetros para el tamaño de la muestra on la que estimamos). Ambas

situa iones dan lugar a altas tasas de error uando lasi amos nuevos asos omo test.

En esta memoria pretendemos mostrar la utilidad de las medidas de in ertidumbre en la

determina ión de la omplejidad de los modelos. En primer lugar adoptamos el modelo de

Diri hlet impre iso propuesto por Walley [97 para estimar un sistema de intervalos de proba-

bilidad para la variable a lasi ar, en lugar de un úni o valor de probabilidad. Estos intervalos

tendrán mayor amplitud uando el tamaño de la muestra se ha e más pequeño. Proponemos

omo riterio para elegir un modelo el sele ionar aquel que propor ione mayor informa ión

para la variable a lasi ar. Modelos muy omplejos darán lugar a que los parámetros se es-

timen on muestras muy redu idas, lo que produ e intervalos muy amplios que serán po o

informativos. Estos modelos no serán sele ionados y se evitará el problema del sobreajuste.

Objetivos

En general, nuestro objetivo bási o es estudiar medidas de in ertidumbre en onjuntos

onvexos de distribu iones de probabilidad y demostrar su utilidad en la onstru ión de

árboles de lasi a ión. De manera más detallada nuestros objetivos se pueden estable er en

los siguientes tres:

· Analizar los estudios de la in ertidumbre en la teoría de la eviden ia. Puntualizaremos

en la justi a ión de los tipos de in ertidumbre en ontrados y en las medidas propuestas

para tal n, así omo en las propiedades que debe tener ada medida para uanti ar un

tipo de in ertidumbre. Queremos estudiar el omportamiento de estas medidas, tanto de

forma intuitiva (que midan lo que deben medir) omo de forma matemáti a (que umplan

las propiedades de deben umplir). Una vez en ontremos la que o las que mejor ompor-

tamiento tengan, veremos que en o asiones tendremos que onsiderar modi a iones de

las mismas.

· Partiendo de estudio anterior, queremos denir medidas de in ertidumbre para onjuntos

onvexos de distribu iones de probabilidad. Estudiaremos qué tipo o tipos de in ertidum-

bre nos vamos a en ontrar y qué propiedades deben veri ar las medidas propuestas para

tal n. Queremos determinar una medida de in ertidumbre total para onjuntos onve-

xos, pro urando que sea amplia ión, si es posible, de las determinadas para la teoría de

la eviden ia y así tener presente el prin ipio de in ertidumbre invariante.

Dentro del estudio sobre onjuntos onvexos, queremos también estable er medidas om-

parativas de éstos uando es posible obtener distintas representa iones a partir de la mis-

ma informa ión. Queremos estable er ompara iones desde varios puntos de vista: medir

la mayor o menor in onsisten ia entre dos representa iones in onsistentes, medir qué

parte de la informa ión que representa un onvexo está englobada en la que representa

el otro y medir la similitud entre dos representa iones onsistentes.

· Apli ar las medidas de in ertidumbre que en ontremos para estable er un método de

lasi a ión utilizando probabilidades impre isas y árboles de lasi a ión.

Des rip ión por apítulos

En el apítulo primero presentaremos diferentes teorías de probabilidades impre isas en

un orden de mayor a menor generalidad. Haremos una breve des rip ión de algunas de ellas,

delimitando unas de otras a partir de ejemplos. Nos entraremos en las que luego nos servirán

para umplir los objetivos de esta memoria: la teoría de la eviden ia, teoría de onjuntos de

intervalos de probabilidad y onjuntos onvexos de distribu iones de probabilidad. Denire-

mos, en la primera y en la última, las opera iones bási as ne esarias para trabajar on las

propiedades de las medidas de in ertidumbre que posteriormente se presentarán, opera iones

tales omo ombina ión, marginaliza ión e independen ia.

En el segundo apítulo se expondrá el origen de las medidas de in ertidumbre dentro de

la teoría de onjuntos y de la teoría de la probabilidad. Veremos qué propiedades tienen las

fun iones mejor estable idas en di has teorías. Veremos la amplia ión que se ha e, del estudio

de la in ertidumbre, en la teoría de la eviden ia. Hablaremos de las fun iones que mejor miden

ada uno de los aspe tos de la in ertidumbre en ontrados en esta teoría y analizaremos sus

propiedades. Nos entraremos en la que mejor umple los requisitos intuitivos y matemáti os

e intentaremos arreglar los problemas que nos surjan on ella.

En el apítulo ter ero estudiamos la amplia ión de las fun iones de in ertidumbre mejor

estable idas en la teoría de la eviden ia, para onjuntos onexos de distribu iones de pro-

babilidad. Para ello, a partir de ejemplos, justi aremos la existen ia de los mismo tipos de

in ertidumbre en esta teoría. Analizaremos las propiedades que deben umplir las medidas de

in ertidumbre de ada tipo que se nos presenta en esta teoría. Veremos que, las fun iones que

mejor nos sirven para medir los dos aspe tos de la in ertidumbre en esta teoría son amplia ión

de las que teníamos en la teoría de la eviden ia y veri an un onjunto similar de propieda-

des bási as al que veri aban en la teoría de la eviden ia. Obtendremos pro edimientos para

al ular, de forma e iente, estos valores uando estamos en un tipo espe ial de onjuntos

onvexos, los onjuntos de intervalos de probabilidad, que se utilizaran en el último apítulo.

En el uarto apítulo estable emos riterios de ompara ión entre dos representa iones de

onjuntos onvexos de distribu iones de probabilidad, obtenidas a partir de la misma informa-

ión. Estable eremos una distan ia de in onsisten ia, un índi e de in lusión y una distan ia

informativa. Veremos la rela ión existente entre estas fun iones.

En el quinto apítulo expondremos dos métodos de lasi a ión a partir de árboles de lasi-

a ión. Veremos un método simple y otro al que llamaremos doble. Utilizaremos la distribu ión

de Diri hlet impre isa para determinar un onjunto onvexo de distribu iones de probabilidad

a partir de una muestra, que realmente será un onjunto de intervalos de probabilidad. Sobre

los anteriores apli aremos las fun iones de in ertidumbre del apítulo ter ero para obtener

un árbol ompleto. Realizaremos experimentos para omparar los resultados que obtienen,

sobre las mismas, métodos bien estable idos: el ingenuo bayes y el C4.5. Utilizaremos, en la

experimenta ión, distintas fun iones de in ertidumbre total.

Capítulo 1

Representa ión de la informa ión a

través de probabilidades impre isas

1.1. Introdu ión

Existen múltiples modelos matemáti os para representar la informa ión disponible en una

determinada situa ión. Ninguno de ellos es, en general, mas justi able que otro, sino que ada

uno es más útil que los demás en situa iones on retas. Walley [96, re opila la mayoría de los

modelos matemáti os para representar la ausen ia de informa ión a través de probabilidades

impre isas. En la gura 1.1 representamos los modelos más usados que utilizan probabilidades

impre isas, así omo la rela ión de generalidad que se puede estable er entre ellos.

Walley [96, expone una gran variedad de situa iones que motivan el uso de probabilidades

impre isas. Entre los asos en los que pare e apropiado el uso de probabilidades impre isas se

pueden desta ar los siguientes:

(1) Situa iones on es asa informa ión para determinar una probabilidad, Walley [96, 97, 99.

(2) Situa iones on falta de espe i idad, omo uando extraemos bolas de una urna on un

número jo de bolas en la que de una antidad de ellas no se sabe on retamente qué

olor tienen. Como por ejemplo en el aso de tener una urna on 10 bolas, de la que

sabemos que 5 son rojas y otras 5 son blan as o negras, pero no se sabe nada sobre la

propor ión entre ellas, Dempster [25, Shafer [88, Klir y Folger [55.

(3) En Robustez Estadísti a uando queremos representar des ono imiento sobre la distri-

10 Capítulo 1. Representación de la información a través de probabilidades imprecisas

bu ión a priori, Berger [7, DeRobertis y Hartigan [27.

(4) Para representar oni tos entre expertos o fuentes de informa ión: mayores in onsisten-

ias deben de dar lugar a informa iones más impre isas, Walley [101, Moral y Sagrado

Hasta ahora se está intentando uni ar en una sola teoría todas las investiga iones que en

este ampo se realizan desde ha e algunos años. Los ongresos Isipta (International Sympo-

sium on Impre ise Probabilities and Their Appli ations) tienen omo n prin ipal di ha meta.

Algunos de estos modelos poseen un amplio onjunto de operadores muy interesantes para

modelizar el ujo de la informa ión. Existen herramientas tales omo ombina ión, marginali-

za ión y ondi ionamiento, prin ipalmente, que nos permiten, omo aspe to más importante,

a tualizar el ono imiento una vez que se obtiene nueva informa ión.

También es ierto que se a usa a algunos de estos modelos, que generalizan a la teoría de la

probabilidad, de are er de justi a ión ne esaria aunque tenga un apoyo matemáti o fuerte.

Todavía queda mu ho por trabajar para obtener una teoría que utili e probabilidades im-

pre isas y que sea apaz de modelizar todos los tipos de in ertidumbre o falta de ono imiento.

In luso, aunque Walley [100 expone una brillante rela ión de estos modelos, más amplia que

la que podemos ver en la gura 1.1, la mayoría de los más generales no pare en estar total-

mente a eptados por mu hos investigadores, en ontrándose mu has ontroversias debido a la

omplejidad de estos o a la falta de justi a ión de su existen ia.

Lo interesante de un modelo general, aparte de su apa idad de representa ión en ual-

quier situa ión, justi a ión y herramientas matemáti as, debe ser que en él se hallan denido

on eptos bási os para manejar la informa ión sobre todo on el ondi ionamiento, pues éste

permite la a tualiza ión del ono imiento en el momento en que obtengamos nuevas observa-

iones. Dire tamente rela ionado on este último está el on epto de independen ia. En Couso,

Moral y Walley [23 podemos ver diversos on eptos de independen ia bajo distintos puntos

de vista. Veremos en futuros apítulos que es posible ha er varias deni iones oherentes de

este on epto, donde ada uno en aja bien en una determinada situa ión. La importan ia de

este on epto ha sido lo que ha llevado al estudio de este amplio abani o de situa iones. Igual

que en Walley [100, vamos a denir de forma breve algunos de los modelos matemáti os que

utilizan probabilidades impre isas, así omo sus rela iones, gura 1.1. En los apartados 1.2, 1.3

y 1.4 hablaremos de forma mas detallada de los modelos que vamos a utilizar de esta memoria.

1.1. Introducción 11

Capacidades Conjuntos convexos

Probabili dades superiores e inferiores

Capacidades de orden 2

Capacidades de orden n

Funciones de creencia

Intervalos de probabili dades

Probabili dades Posibili dades

Donde A B significa que el modelo A es menos general que el B y A B significa que A y B son igualmente generales

Esperanzas inferiores

Figura 1.1: Relaciones de generalidad entre teorías basadas en probabilidades imprecisas

Para jar nota ión, representaremos el espa io de posibles estados de una variable X a

onsiderar, omo ΩX . Por ejemplo, en el aso del lanzamiento de un dado tendríamos ΩX =

1, 2, 3, 4, 5, 6. A ve es, para simpli ar nota ión, hablaremos dire tamente de valores de X.

1.2. Conjuntos onvexos de distribu iones de probabilidad

Para omenzar on los modelos matemáti os para representar la informa ión, vamos a in-

trodu ir el que onsideramos más general, aunque también, omo di e Walley [100, tiene una

interpreta ión más problemáti a si se onsidera dire tamente y no a través del modelo de es-

peranzas inferiores, equivalente a éste omo se puede apre iar en la gura 1.1. El modelo de

probabilidades superiores e inferiores es uno de los más naturales para representar la informa-

ión probabilísti a. Es lógi o que un experto use probabilidades intervalares para espe i ar

su redibilidad de la o urren ia de un su eso determinado. En ambio, hay algunas rela iones

entre probabilidades de los elementos de un onjunto que no se representan ade uadamente por

medio de intervalos. Lo que o urre es que éste es un modelo que no es lo su ientemente gene-

ral y el resultado de operar on intervalos de probabilidad no siempre es siempre representable

por intervalos. Por lo que, a ve es, interesa generalizar para representar de forma oherente la

informa ión, lo que nos llevaría a un modelo basado en onjuntos onvexos de distribu iones

de probabilidad, entendiendo omo tal a un polítopo o poliedro onvexo de distribu iones de

probabilidad.

Nosotros entenderemos omo onjuntos onvexos de distribu iones de probabilidad a políto-

pos errados del espa io n-dimensional, que bien pueden determinarse a partir de un onjunto

de restri iones lineales o enumerando el onjunto de sus vérti es. Un interesante desarrollo de

la determina ión de un onjunto onvexo de distribu iones de probabilidad lo tenemos en la

tesis de Verdegay-López [95. Cada una de las dos formas anteriores de representar el onvexo

es más interesante según el n para el que lo utili emos. Por ejemplo, si ne esitamos ombinar

dos onjuntos onvexos será más interesante el uso de restri iones lineales y si ne esitamos

utilizarlos en algoritmos de propaga ión en grafos de dependen ias, Cano [13, ne esitaremos

su determina ión en puntos extremos.

En adelante nos referiremos a onjuntos onvexos omo onjuntos onvexos de distribu-

iones de probabilidad para a ortar su men ión. No habrá ningún problema puesto que sólo

trabajamos on probabilidades del espa io n-dimensional.

1.2. Conjuntos convexos de distribuciones de probabilidad 13

Existe una di ultad en ontrada en la literatura sobre los trabajos on opera iones on

onjuntos onvexos y es que para determinadas opera iones, omo es el aso de la independen-

ia, existen varias deni iones que no son equivalentes, en ontrándose algunas de ellas que ni

siquiera generalizan a la lási a independen ia probabilísti a. En esta se ión veremos algunas

para onjuntos onvexos y en el apítulo 3 trabajaremos on ellas y veremos que rela ión tienen

on las medidas de informa ión.

En esta se ión, empezaremos viendo las dos formas de determinar un onvexo basándonos

sobre todo en la exposi ión que ha e Verdegay-López [95. A ontinua ión hablaremos de las

opera iones bási as on onjuntos onvexos que más adelante se ne esitaran. Quedará para las

siguientes se iones la distin ión, a partir de ejemplos, de este modelo on los menos generales,

según la gura 1.1.

1.2.1. Representa ión de onjuntos onvexos de distribu iones de probabi-

Partiremos, omo haremos siempre desde ahora, de una variable X que toma valores en el

onjunto ΩX = x1, x2, ..., xn.Previamente vamos a denir el on epto de onvexo en IRn

Deni ión 1.1 Dado un onjunto H de IRn, se le llamará onvexo si veri a que para ua-

lesquiera p, q ∈ H y α ∈ [0, 1] que:

αp + (1− α)q ∈ H.

Notaremos omo P(ΩX) o P(X) al onjunto de todas las distribu iones de probabilidad

sobre X. Si n es el numero de elementos de X, también se llamará a este poliedro PPn, en

próximos apítulos.

Si p ∈ P(ΩX), enton es al valor p(xi) lo notaremos omo pi.

En general, las informa iones se representarán mediante onjuntos onvexos de distribu io-

nes de probabilidad.

Una situa ión real de uso de onjuntos onvexos la podemos ver en el siguiente ejemplo de

Cano [13:

Ejemplo 1.1 Supongamos una urna que ontiene bolas de tres olores: blan as (B), rojas

(R) y negras (N). Hay 10 bolas en la urna y la úni a informa ión que tenemos es que 5 son

blan as, 2 son rojas y de las otras 3 no sabemos nada, pueden ser de ualquiera de los tres

olores. Tenemos que realizar el experimento de sa ar una bola al azar.

Esta falta de informa ión sólo nos permite distinguir entre valores extremos de la probabi-

lidad de ada su eso, de la siguiente forma:

P (∅) = 0, P (B) ∈ [0.5, 0.8], P (R) ∈ [0.2, 0.5], P (N) ∈ [0, 0.3],

P (B,R) ∈ [0.7, 1], P (B,N) ∈ [0.5, 0.8], P (R,N) ∈ [0.2, 0.5],

P (B,R,N) = 1

El onjunto de probabilidades aso iado ontiene, entre otras a las siguientes distribu iones

de probabilidad en B,R,N

p1(B) = 0.5, p1(R) = 0.2, p1(N) = 0.3

p2(B) = 0.8, p2(R) = 0.2, p2(N) = 0

p3(B) = 0.6, p3(R) = 0.3, p3(N) = 0.1

1.2.1.1. Representa ión a través de puntos extremos

Vamos a onsiderar siempre onjuntos onvexos on un número nito de puntos extremos.

Son los que se determinan omo poliedros onvexos y errados de IRn, que al pertene er al

subespa io probabilísti o son a su vez a otados. Podemos denirlos omo los onjuntos del tipo

H de IRntales que:

H = p ∈ IRn : p = α1p1 + α2p

2 + ... + αmpm;∑

pji = 1;

αi = 1; pji , αi ≥ 0, i ∈ 1, 2, ...,m; j ∈ 1, 2, ..., n,

que también notaremos omo

H = CH(p1, p2, . . . , pm),

on CH la láusula onvexa (el mínimo onvexo que ontiene a un onjunto dado).

Se nos podría plantear el aso en los que todos los pino fuesen probabilidades extremas,

estas se determinarían utilizando algunos algoritmos existentes en la literatura para tal n,

tales omo los de Edelsbrumer [33 y Preparata y Shamos [80. Se puede ver en el siguiente

ejemplo de Verdegay-López [95, el uso de los algoritmos anteriores.

Ejemplo 1.2 Sea el onjunto de probabilidades siguiente sobre ΩX = x1, x2, x3:

(0.4, 0.3, 0.3); (0.1, 0.5, 0.4); (0, 0.5, 0.5); (0.2, 0.6, 0.2); (0.4, 0.6, 0); (0.2, 0.8, 0); (0, 1, 0),

donde (r1, r2, r3) indi an las probabilidades (p(x1), p(x2), p(x3)). Apli ando los algoritmos i-

tados anteriormente, el onvexo que se obtiene de las ombina iones onvexas de las probabi-

lidades anteriores es el mismo que tiene las siguientes probabilidades extremas:

(0.4, 0.3, 0.3); (0.4, 0.6, 0); (0, 1, 0); (0, 0.5, 0.5)

Los onjuntos anteriores se pueden ver en una sen illa y muy utilizada representa ión en

IR3, a través de un triángulo equilátero, donde se puede representar ualquier distribu ión de

probabilidad de IR3, en el que ada vérti e orresponde a un valor de la variable. En el triángulo,

on alturas igual a la unidad, ada punto representa el una distribu ión de probabilidad en la

que pi es la distan ia de éste al lado opuesto al vérti e i. Por ejemplo en la gura 1.2 podemos

ver la representa ión de la distribu ión de probabilidad (0.5, 0.3, 0.2)

Figura 1.2: Representación de una distribución de probabilidad sobre IR3

Así pues, el onvexo que se obtiene del ejemplo 1.2 anterior sería el de la gura 1.3.

Esta representa ión será muy usada en todo nuestro trabajo, puesto que es muy útil para

ilustrar ideas bási as a partir de ejemplos en IR3.

1.2.1.2. Representa ión a partir de restri iones lineales

La otra alternativa a la representa ión de poliedros onvexos de probabilidades es la de un

sistema de restri iones lineales en IRnque genéri amente podemos determinar de la siguiente

forma:

H = p ∈ IRn : Ap ≤ b;∑

pi = 1; pi ≥ 0

donde A es una matriz de dimensión m× n y b es de dimensión m× 1.

Este onjunto está a otado al onsiderar el espa io probabilísti o.

Veamos un ejemplo de este tipo de representa ión, Verdegay-López [95:

Ejemplo 1.3 El siguiente onjunto de restri iones lineales da lugar al onvexo determinado

por los puntos extremos del ejemplo 1.2

p1 + 2p2 ≥ 1

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 1.3: Conjunto convexo del ejemplo 1.2

p2 + p3 ≥ 0.6

p1 + p2 + p3 = 1

pi ≥ 0,∀i ∈ 1, 2, 3

En el aso de tener restri iones redundantes, o mejor di ho, restri iones uyo umplimien-

to se dedu e de otras restri iones del problema, se puede apli ar un método de elimina ión

omo los de Karwan [48, Rubin [87, et ...

En Verdegay-López [95 hay un trabajo interesante sobre la transforma ión de estos dos

tipos de representa iones para que utili emos la más ade uada dependiendo de nuestro objetivo.

Expresa una serie de algoritmos apa es de obtener el onjunto de restri iones de un poliedro

onvexo dado por un onjunto de puntos extremos. Además, se ha e una enumera ión de los

métodos y algoritmos que obtienen el onjunto de puntos extremos de un poliedro onvexo

determinado por un onjunto de restri iones, desta ando el estudio omparativo que ha en

Mattheiss y Rubin [71 sobre estos algoritmos.

1.2.2. Opera iones on onjuntos onvexos de distribu iones de probabili-

Como ya itamos los onjuntos onvexos de distribu iones de probabilidad son poliedros

onvexos de IRny omo tales podemos denir desde un punto de vista matemáti o una serie

de opera iones sobre ellos tales omo las siguientes:

Deni ión 1.2 Dados los onjunto onvexos C1, C2 sobre una variable X, que toma valores

en ΩX = x1, x2, ..., xn, diremos que C1 ⊆ C2 si toda probabilidad extrema de C1 se puede

poner omo ombina ión onvexa de las probabilidades extremas de C2

Deni ión 1.3 Sea C un onjunto onvexo sobre X × Y on valores en ΩX × ΩY , siendo

ΩX = x1, x2, ..., xn y ΩY = y1, y2, ..., ym respe tivamente. Llamaremos onvexo marginal

de C sobre X al onjunto onvexo siguiente:

CX = (pX) ∈ P (ΩX) : ∃p ∈ C | pXi =

yj∈ΩY

pij ;∀i ∈ 1, .., n

donde pXi = pX(xi) y pij = p(xi, yj).

Es de ir, el onjunto de las distribu iones marginales sobre X de todas las distribu iones

de probabilidad de C. De forma análoga deniríamos CY

Si C viene denido por las probabilidades extremas p1, p2, ..., pr enton es CX viene de-

nido por pX1 , pX

2 , ..., pXr , siendo pX

i la proye ión de pi sobre X, donde no todas las distribu-

iones marginales tienen porque ser extremas, es de ir

C = CHpX1 , pX

2 , ..., pXr ,

donde omo ya se dijo, on CH expresamos todas las ombina iones onvexas de ese onjunto

de probabilidades, es de ir, el as o onvexo de ese onjunto de distribu iones (el menor onvexo

que las ontiene).

Deni ión 1.4 Dado CX onjunto onvexo sobre X on valores en ΩX = x1, x2, ..., xny CY onjunto onvexo sobre Y on valores en ΩY = y1, y2, ..., ym, llamaremos onjunto

onvexo ombina ión de CX y CY sobre X × Y al onjunto siguiente:

C = CHpX1 · qY

1 , pX1 · qY

2 , ..., pXr1· qY

siendo pXi y qY

j las probabilidades extremas de CX y CY , on i ∈ 1, 2, ..., r1 y j ∈ 1, 2, ..., , r2,respe tivamente.

También notaremos a este onjunto omo C = CH(CX × CY ), entendiendo omo CH al

as o onvexo del onjunto

CX × CY = (g) ∈ IRn·m|g = pX · qY ; pX ∈ CX , qY ∈ CY

(menor onjunto onvexo que ontiene a pXi · qY

j i,j).

Como se omentó, un aspe to problemáti o sobre las opera iones on onjuntos onvexos es

el de la deni ión de independen ia. En Couso, Moral y Walley [23 se ha e una exposi ión

re opilatoria de las deni iones más relevantes.

Deni ión 1.5 Sea C un onjunto onvexo sobre las variables X,Y,Z on valores en ΩX ,ΩY ,ΩZ

respe tivamente. Se dirá que hay independen ia marginal de X e Y dado Z si y sólo si

C = CX,Z ∩ CY,Z

donde CX,Z y CY,Z son los onjuntos marginales en ΩX × ΩZ y ΩY × ΩZ respe tivamente.

En Couso, Moral y Walley [23 se justi a esta deni ión a través de ejemplos, así omo

la siguiente:

Deni ión 1.6 Sea C un onjunto onvexo sobre X × Y que toman valores sobre ΩX ×ΩY ,

se di e que existe independen ia fuerte de X e Y si y sólo si se veri a que

C = CHpiqj; i ∈ 1, ..., r1; j ∈ 1, ..., r2,

siendo CX la marginal de C sobre X y CY la marginal sobre Y y además pi | i ∈ 1, ..., r1,qj | j ∈ 1, ..., r2 son los puntos extremos de CX y CY respe tivamente

Ésta es la generaliza ión dire ta de la deni ión probabilísti a que tendrá bastante impor-

tan ia en nuestro trabajo, ya que será la que utili emos por ello.

Otra deni ión usada sobre todo en la propaga ión de grafos dirigidos a í li os, es la dada

por De Campos y Moral [11:

Deni ión 1.7 Sea CXY Z un onjunto onvexo sobre X × Y ×Z que toma valores en ΩX ×ΩY ×ΩZ, diremos que existe independen ia ondi ional fuerte de X e Y dada Z si y sólo

si CXY Z = CH(C1×C2), donde C1 es un onjunto onvexo sobre ΩX×ΩZ y C2 es un onjunto

onvexo sobre ΩY × ΩZ , sin ne esidad de que sean onjuntos marginales o ondi ionales de

1.2.3. Esperanzas superiores e inferiores

Se trata de un modelo tan general omo el de los onjuntos onvexos de distribu iones de

probabilidad. De he ho se demuestra que existe una biye ión entre ellos, Walley [100.

Según Walley, los onjuntos onvexos tienen una interpreta ión algo problemáti a, puesto

que no es fá il admitir que, en una determinada situa ión, la informa ión de la que disponemos

se puede representar dire tamente mediante el onjunto de las ombina iones onvexas de

determinadas probabilidades. El modelo de esperanzas inferiores es equivalente, pero on una

justi a ión más sen illa.

Se introdu e en términos de apuestas, o sea, de variables aleatorias a otadas X : ΩX → IR,

que se pueden interpretar omo juegos donde si se obtiene de resultado el valor xs ∈ ΩX ,

enton es se obtiene la re ompensa X(xs).

Dene la esperanza inferior, E(X), omo el pre io más alto de ompra para un juego, o

di ho de otra forma, el máximo valor que una persona estaría dispuesta a pagar por ese juego

X. Análogamente dene la esperanza superior E(X) omo el mínimo pre io de venta para el

juego X. Teniendo que

E(X) = −E(−X).

Además dene la oheren ia en este onjunto de la siguiente forma:

Deni ión 1.8 Diremos que una esperanza inferior es oherente si existe un onjunto de

distribu iones de probabilidad C tal que

E(X) = inf Ep(X)|p ∈ C,

para ualquier juego X, donde se entiende por Ep(X) a la esperanza de X respe to a p,

Ep(X) =∑

xs∈ΩXX(xs)p(xs).

Las esperanzas inferiores oherentes se ara terizan on el siguiente teorema, Walley [100:

Teorema 1.1 Sea K un espa io lineal de fun iones X de ΩX en IR (es de ir si X ∈ K, Y ∈ K,λ ∈ IR enton es λX ∈ K,X + Y ∈ K). Enton es E es una esperanza inferior oherente si y

sólo si satisfa e para todo X,Y ∈ K:

1. E(X) ≥ inf X(xs) : xs ∈ ΩX

2. E(λX) = λE(X) uando λ > 0

3. E(X + Y ) ≥ E(X) + E(Y )

A partir del siguiente teorema demuestra que las esperanzas inferiores oherentes son tan

generales omo los onjuntos onvexos de distribu iones de probabilidad, tal y omo tenemos

en la gura 1.1, siendo la rela ión de uno a uno.

Teorema 1.2 Existe una orresponden ia uno a uno entre las esperanzas inferiores oherentes

E (donde E se dene para todas las fun iones X de ΩX en IR) y los onjuntos onvexos de

distribu iones de probabilidad C.

E determina de forma úni a un onjunto onvexo C mediante:

C = p ∈ P(ΩX ) : Ep(X) ≥ E(X)

para todas las fun iones X de ΩX en IR

1.3. Capacidades 21

C determina de forma úni a una esperanza inferior oherente E, mediante

E(X) = mınEp(X) : p ∈ C

para todas las fun iones X de ΩX en IR

1.3. Capa idades

También llamadas "medidas difusas", Wang y Klir [102, Grabish et al. [38. Una apa idad

es una fun ión µ : ℘(ΩX)→ [0, 1], on X nito, tal que

1.- 0 ≤ µ(A) ≤ 1, ∀A ⊆ ℘(ΩX)

2.- µ(∅) = 0 y µ(ΩX) = 1

3.- Si A ⊆ B enton es µ(A) ≤ µ(B), ∀A,B ⊆ ℘(ΩX)

Como podemos ver son un onjunto de propiedades muy débiles.

Con el siguiente ejemplo vamos a ver que denen a onjuntos de fun iones distintos a los

de los onjuntos onvexos de distribu iones de probabilidad.

Ejemplo 1.4 Sea la siguiente fun ión µ : ℘(ΩX) → [0, 1], on ΩX = x1, x2, x3, x4, x5denida de la siguiente forma:

µ(xi) = 0,

µ(xi, xj) = 0.4,

µ(xi, xj, xk) = 0.5,

µ(xi, xj , xk, xl) = 0.9

µ(ΩX) = 1,∀i, j, k, l ∈ 1, 2, 3, 4, 5.

Enton es µ es una fun ión apa idad ( umple las propiedades anteriores), pero no existe pro-

babilidad o onjunto de probabilidades que veriquen tales ondi iones, pues para toda pro-

babilidad p que las veri ara, tendríamos que p(xi) = 0 y p(xj , xk) = 0.4 impli an que

p(xi, xj, xk) = 1.2, para ualesquiera i, j, k distintos.

En la siguiente se ión veremos que existen onjuntos onvexos de distribu iones de pro-

babilidad que no se pueden expresar a partir de apa idades ni de probabilidades superiores e

inferiores.

1.4. Probabilidades inferiores oherentes

Nos basaremos en las probabilidades superiores e inferiores, denidas de la siguiente forma:

Deni ión 1.9 A un par de apa idades, P y P , se le llaman probabilidades superior e infe-

rior respe tivamente, si veri an las siguientes propiedades:

1.- P (A) + P (Ac) = 1, donde Aces el ontrario de A

2.- P (A ∪B) ≥ P (A) + P (B) uando A ∩B = ∅

3.- P (A ∪B) ≤ P (A) + P (B)

Tenemos que omo 1 − P (Ac) = P (A), sólo ne esitamos ono er una, por ejemplo P (A),

por lo que al modelo se le puede denominar sólo omo de probabilidades inferiores o de proba-

bilidades superiores.

Se veri a fá ilmente de las propiedades anteriores que

P (A) ≥ 1− P (Ac) = P (A)

A un par P y P le podemos aso iar un onjunto onvexo, M , de las distribu iones de

probabilidad p tales que veriquen

P (A) ≤∑

p(x) ≤ P (A)

Podemos ver en Walley [100 que este onjunto onvexo puede ser va ío, lo que denomina

omo "pérdida segura"en términos de apuestas. Es posible anular la perdida segura introdu-

iendo más propiedades para la pareja de probabilidades superior e inferior, lo que también nos

lleva a una mejor interpreta ión de ambas.

Un par de apa idades (P ,P ) se di en oherentes si existe un onjunto no va ío, C, de

distribu iones de probabilidad tal que

P (A) = mınp(A) : p ∈ C

1.4. Probabilidades inferiores coherentes 23

que podemos añadir omo propiedad 4, que impli a a las otras e impli a la anula ión de la

perdida segura. En este aso se di e que los intervalos de probabilidad son al anzables.

Al onjunto de probabilidades que veri an las propiedades (1), (2), (3) y (4) se le llama de

probabilidades inferiores oherentes o de probabilidades superiores oherentes, que es simple-

mente un onjunto de probabilidades superior e inferior on la garantía de que es no va ío, es

de ir, que al menos ontiene a una distribu ión de probabilidad y on intervalos de probabilidad

al anzables.

Walley [100, diferen ia el modelo de probabilidades superiores e inferiores en dos: uno

general, donde no tiene que veri arse la propiedad (4) y no tiene por qué originar un onjunto

onvexo de distribu iones de probabilidad (en realidad es un tipo on reto de apa idades) y

otro en el que si se veri a la propiedad (4) y origina un tipo on reto de onjuntos onvexos.

Veamos unos ejemplos que nos permiten ilustrar los on eptos anteriores:

Ejemplo 1.5 Si no onsideramos la propiedad 4 anterior es posible obtener un onjunto

va ío de probabilidades.

Supongamos el aso de un partido de fútbol donde los posibles resultados son G=ganar,

E=empatar y R=perder on Ω = G,E,R.Supongamos que armamos que

P (G) = 0.65, P (E) = 0.25, P (R) = 0.4,

P (G) = 0.6, P (E) = 0.2, P (R) = 0.35.(1.1)

El onjunto de probabilidades p tal que P (A) ≤ ∑x∈A p(x) ≤ P (A) es va ío, pues se

puede obtener:

x∈Ω

P (x) > 1

y no hay probabilidad que verique tal ondi ión. Aunque se veriquen las propiedades 1− 3,

es ne esaria la 4 para asegurar la anula ión de la pérdida segura y la oheren ia.

Ejemplo 1.6 Supongamos ahora, en el aso del ejemplo anterior, que tenemos el sistema

P (G) = 0.27, P (E) = 0.27, P (R) = 0.21.(1.2)

Tenemos que la probabilidad p = (0.27, 0.52, 0.21) pertene e a M , pero todas las probabili-

dades extremas no son al anzables pues no existe una probabilidad p′ tal que p′(E) = 0.61 =

P (E). Pues si existiera tendríamos que:

p′(Ec) = p′(G) + p′(R) ≥ 0.27 + 0.21 = 0.48

p′(Ec) = 1− p′(E) = 1− 0.61 = 0.39,

lo ual no tiene sentido.

Ejemplo 1.7 Siguiendo on el aso del ejemplo anterior, supongamos ahora el sistema si-

guiente:

P (G) = 0.52, P (E) = 0.52, P (R) = 0.31,

P (G) = 0.27, P (E) = 0.27, P (R) = 0.21.(1.3)

Con sólo modi ar el valor de P (E), hemos onseguido un sistema on todas las probabili-

dades extremas al anzables.

El ejemplo [? nos sirve también para distinguir entre la teoría de apa idades y la de

onjuntos de probabilidades inferiores oherentes.

Ahora, on el siguiente ejemplo vamos a distinguir entre esta teoría y la más general de

onjuntos onvexos de distribu iones de probabilidad. Además también nos sirve omo ejemplo

para distinguir esta última de la también general teoría de apa idades.

Ejemplo 1.8 El siguiente onjunto onvexo de distribu iones de probabilidad C, sobre ΩX =

x1, x2, x3, denido por sus puntos extremos, no se puede obtener a partir de un onjunto de

probabilidades inferiores ni tampo o de una fun ión apa idad:

C = CH((1, 0, 0); (0, 0.5, 0.5)),

1.5. Capacidades de orden 2 25

pues denirían unas probabilidades inferiores de:

P (xi) = 0,∀i ∈ 1, 2, 3

P (x1, x2) = 0.5, P (x1, x3) = 0.5, P (x2, x3) = 0,

P (ΩX) = 1.

Éstas denen un onjunto de probabilidades que ontienen a la probabilidad (0.5, 0, 0.5) que

no está en C. Análogamente, si una fun ión apa idad fuese apaz de denir un onjunto

de probabilidades omo éste, tendría que tener aso iada el mismo onjunto de probabilidades

inferiores, on lo que o urriría lo mismo.

1.5. Capa idades de orden 2

Se denen omo un onjunto de probabilidades superior e inferior P ,P o sólo P que

veri a:

P (A ∪B) + P (A ∩B) ≥ P (A) + P (B), ∀A,B ⊆ ℘(ΩX)

Las apa idades de orden 2 son siempre oherentes, Walley [100.

Además, no todas las probabilidades superiores e inferiores son apa idades de orden 2,

omo se puede ver en siguiente ejemplo:

Ejemplo 1.9 Consideremos el siguiente sistema de probabilidades inferiores sobre el onjun-

to nito ΩX = x1, x2, x3, x4:

P (xi) = 0, ∀i ∈ 1, 2, 3, 4

P (x1, x2) = 0, P (xl, x3) = 0.5, P (xl, x5) = 0.5, ∀l ∈ 1, 2,

P (xi, xj , xk) = 0.5, ∀i, j, k ∈ 1, 2, 3, 4

P (ΩX) = 1.

No es una apa idad de orden dos pues si llamamos A = x1, x3 y Bx1, x4 tenemos que

P (A ∪B) + P (A ∩B) = P (x1, x3, x4) + P (x1) = 0.5 < P (A) + P (B) = 1.

1.5.1. Capa idades de orden n > 2

Diremos que una apa idad P es de orden n o n-monótona si se veri a que

P (A1 ∪A2 ∪ . . . ∪An) ≥n∑

P (Ai)−∑

P (Ai ∩Aj) + . . .

+ . . . +∑

P (Ai ∩Aj ∩Ak)− . . . + (−1)n+1P (n⋂

para ualesquiera A1, A2, ..., An ∈ ℘(ΩX)

1.6. Intervalos de probabilidad

En el trabajo de de Campos, Huete y Moral [10, podemos en ontrar una ex elente exposi ión

de las opera iones bási as para trabajar on intervalos de probabilidad, así omo su rela ión

on otros modelos tales omo los de probabilidades superiores e inferiores, apa idades de orden

2 y fun iones de reen ia.

La ara terísti a prin ipal de este modelo es que son posibles mu has interesantes opera io-

nes entre onjuntos de intervalos de probabilidad sin tener que salirnos del modelo, es de ir,

que dan omo resultado otro onjunto de intervalos de probabilidad.

Se pueden des ribir de la siguiente manera: Sea X una variable que toma valores en

ΩX = x1, x2, . . . , xn. Un sistema de intervalos de probabilidad es una familia de intervalos

L = [li, ui]; i ∈ 1, 2, . . . veri ando que 0 ≤ li ≤ ui ≤ 1. Enton es al sub onjunto M de

todas las distribu iones de probabilidad sobre ΩX , P(ΩX), denido omo

M = p ∈ P(ΩX)|li ≤ pi ≤ ui,∀i,

expresando a pi omo p(xi), se le denomina onjunto onvexo aso iado al onjunto de in-

tervalos de probabilidad L.

Una ondi ión para que esta onjunto sea no va ío (se evite la pérdida segura) es que

li ≤ 1 ≤∑

1.6. Intervalos de probabilidad 27

Es más, es posible ara terizar la oheren ia, tal y omo fue denida, de un onjunto de

intervalos de probabilidad, a través de la ondi ión de intervalos de probabilidad al anzables

que son aquellos que veri an las ondi iones:

lj + ui ≤ 1

uj + li ≥ 1,

para ualquier i. Con lo que existirán probabilidades enM que tengan omo valores a los li y uj

para ualesquiera omponentes i, j ∈ 1, . . . , n. La oheren ia es ompletamente equivalente

a tener un sistema de intervalos al anzables. Si no tenemos asegurada la oheren ia es posible

obtenerla según la siguiente propiedad:

Proposi ión 1.1 Dado un onjunto de intervalos de probabilidad L = [li, ui]; i ∈ 1, 2, . . . , nel onjunto L′ = [l′i, u′

i]; i ∈ 1, 2, . . . , n donde

l′i = maxili, 1−

u′i = mın

iui, 1−

determinan el mismo onjunto de probabilidades, M = M′, siendo este último onjunto de

intervalos al anzable.

En algunas situa iones, omo en la búsqueda de métodos de propaga ión de onjuntos on-

vexos en redes ausales, Cano [13, puede interesarnos ono er uál es el onjunto de proba-

bilidades extremas tal que su ombina ión onvexa nos determine el onjunto de intervalos de

probabilidad. Es de ir, omo sabemos que se trata de un onjunto onvexo de distribu iones

de probabilidad, uál es el onjunto de vérti es aso iado. Para ello, podemos usar el algorit-

mo expuesto en De Campos, Huete y Moral [10, donde utilizan un árbol de búsqueda donde

ada nodo es una probabilidad par ial y ada nodo hijo de éste es un renamiento de padre

in rementado en una omponente pi. El algoritmo usa una lista, Prob, de probabilidades ex-

tremas ya en ontradas y otra, Expl de índi es explorados, así omo λ un valor real. Además,

las probabilidades p son tales que no tiene por qué darse que

∑i pi = 1, aunque, por supuesto

al nal del algoritmo si umplen di ha ondi ión. El algoritmo, para intervalos de probabilidad

al anzables, se puede des ribir de la siguiente forma:

Algoritmo 1.1 Búsqueda de las probabilidades extremas

1. Ini ializa ión:

Prob← ∅Expl← ∅λ← 1−∑i≤n li

For i = 1 to n do

pi ← li

2. Llamar a Getprob(p, λ,Expl) que al ula y añade las probabilidades extremas a Prob

3. Getprob(p,λ,Expl)

For i = 1 to n do

If not belongs (i,Expl)

then if λ ≤ ui − li

v ← pi;

pi ← pi + λ;

If not belongs (p, Prob)

Add(p, Prob);

pi ← v

v ← pi;

pi ← ui;

GetProb(p, λ− ui + li, Expl ∪ i);pi ← v;

En el siguiente ejemplo podemos ver el resultado de la apli a ión del algoritmo anterior

sobre un onjunto de intervalos de probabilidades.

Ejemplo 1.10 Sea el siguiente onjunto de intervalos de probabilidad:

L = [0, 0.3]; [0.4, 0.8]; [0.1, 0.5]; [0, 0.4],

sobre ΩX = x1, x2, x3, x4. Por el algoritmo anterior este onjunto tiene omo probabilidades

extremas las siguientes:

(0.3, 0.5, 0.1, 0.1); (0.3, 0.4, 0.2, 0.1); (0.3, 0.4, 0.1, 0.2); (0, 0.5, 0.4, 0.1);

(0, 0.5, 0.1, 0.4); (0, 0.4, 0.5, 0.1); (0.1, 0.4, 0.1, 0.4); (0, 0.4, 0.2, 0.4).

El formalismo de los intervalos de probabilidades es altamente e iente desde el punto de

vista omputa ional pues omo podemos ver basta on trabajar on 2n valores. En de Campos,

Huete y Moral [10, podemos en ontrar el desarrollo de las prin ipales herramientas para este

modelo. La mayoría se basan en que es un tipo on reto de probabilidades superiores e inferiores

y así se trabaja para obtener ombina ión, marginaliza ión y ondi ionamiento.

Nosotros utilizaremos los onjuntos de intervalos de probabilidad, y nos aprove haremos de

su fa ilidad opera ional uando los obtengamos omo aso parti ular de onjuntos onvexos

que se obtienen al trabajar on la distribu ión de Diri hlet impre isa, Walley [97.

Los intervalos de probabilidad son un aso on reto de probabilidades inferiores y superiores,

puesto que dado un onjunto de intervalos de probabilidad L se puede obtener un par P ,Pde probabilidades superiores e inferiores, ha iendo

P (A) = inf p∈P (Ω)p(A), P (A) = sup p∈P (Ω)p(A),

∀A ⊆ ℘(Ω). En ambio, el inverso no es ierto, pues si tenemos, por ejemplo, un onjunto de

restri iones del tipo

pi + pj ≤ αij,

pi + pj + pk ≥ βijk,∑

pi = 1,

dan lugar a un onjunto de probabilidades superiores e inferiores pero en general no dan lugar

a un onjunto de intervalos de probabilidad.

Además es posible demostrar los intervalos son siempre un tipo de apa idad de orden 2 (de

Campos, Huete y Moral [10).

1.6.1. Fun iones de reen ia

La teoría de la eviden ia o teoría de Dempster-Shafer, Dempster [25, Shafer [88, tienen

realmente su origen en los trabajos sobre probabilidades superiores e inferiores de Dempster

Se basa en fun iones m : ℘(ΩX)→ [0, 1], on X onjunto nito, tales que

m(∅) = 0

A⊆℘(ΩX)

m(A) = 1.

A este tipo de fun iones se les llama asigna iones bási as de probabilidad, que nosotros abre-

viaremos omo a.b.p. A los elementos A ⊆ ℘(ΩX) tales que m(A) 6= 0 se les llama elementos

fo ales de m. Al onjunto de los elementos fo ales de una a.b.p. m lo denotaremos omo Fm.

El valor m(A) representa el grado de reen ia sobre un onjunto A, es de ir indi a la reen ia

de que la variable en estudio X toma valor en A, pero no distingue sobre la reen ia de los

distintos elementos de A, omo haría una distribu ión de probabilidad en la lási a teoría de

la probabilidad.

Sobre lo que se denomina un uerpo de eviden ia, un par (Fm,m), se puede denir un par

de medidas: una medida de reen ia bel y una medida de plausibilidad pl que se determinan

sobre todos los onjuntos A ⊆ ℘(ΩX) de la siguiente forma:

bel(A) =∑

pl(A) =∑

B∩A 6=∅m(B).

Podemos interpretar a bel(A) omo el grado seguro de reen ia de que el verdadero valor de

la variable X está en A y a pl(A) omo el mayor grado de reen ia de que el verdadero valor de

X esté en A. Son realmente unas probabilidades superior e inferior de A omo originalmente

fueron introdu idas por Dempster [25.

Además

pl(A) = 1− bel(Ac),

por lo que son medidas duales. Lo que nos origina, al ser pl(A) ≥ bel(A), un intervalo de

reen ia sobre ada sub onjunto A: [bel(A), pl(A)].

También podemos onsiderar a bel(A) omo el menor grado de apoyo a A y a pl(A) omo

el mayor grado de apoyo a A, Smets [92.

Ejemplo 1.11 Sea m a.b.p. sobre X = x1, x2, x3 determinada por

m(x1) = m(x2) = m(x3) = 0.2

m(x1, x2, x3) = 0.4

Los intervalos de reen ia anteriores para ada sub onjunto de ΩX serían:

· Para ada x1, x2, x3 tendríamos: [0.2, 0.6]

· Para xi, xj, on i, j ∈ 1, 2, 3 serían: [0.4, 0.8]

Según vemos la masa que se le da al elemento x1 no es suma de m(x1) más

13m(x1, x2, x3)

omo sería lógi o en la teoría de la probabilidad. Aunque veremos que si habrá probabilidades

ontenidas on esta a.b.p. que tendrán ese valor para x1. Para simpli ar nota ión utilizaremos

más adelante mi ≡ m(xi), mij ≡ m(xi, xj) y m123 ≡ m(x1, x2, x3), para los ejemplos

en dimensión 3 y análogamente para dimensiones mayores.

1.6.2. Rela ión on otros modelos

Según omprobó Shafer [88, las eviden ias son apa idades de orden innito, es de ir,

veri an la siguiente propiedad ∀n ≥ 0:

pl(A1 ∩A2 ∩ . . . ∩An) ≤∑

pl(Ai)−∑

pl(Ai ∩Aj) + . . . + (−1)n+1pl(A1 ∪A2 ∪ . . . ∪An).

Una propiedad dual se veri a para bel.

Podemos ver el par (bel, pl) omo un sistema de intervalos de probabilidad que al ser siem-

pre apa idades de orden 2 son también oherentes. Como tales, siempre podemos al ular el

onvexo aso iado (Dempster [25):

Proposi ión 1.2 Cada a.b.p. m sobre X nito tiene aso iado un onjunto onvexo de distri-

bu iones de probabilidad C de la siguiente forma:

C = p ∈ ℘(ΩX)|bel(A) ≤∑

p(x) ≤ pl(A);∀A ⊆ ℘(ΩX)

y viene determinado por los siguientes vérti es:

Sea Sn el espa io de las permuta iones de n elementos, (σi) ∈ Sn, on i ∈ 1, 2, . . . , n!, ada una de ellas y σj

i su omponente j−ésima. Enton es tenemos un total de n! vérti es, uno

para ada permuta ión, estable idos de la siguiente forma: (Dempster [25, de Campos [9):

σi → (pσ1i, pσ2

i, . . . , pσn

A|σ1i ∈A

i∈ A

i/∈ A

. . . . . . . . . . . .

pσn−1i

A|σn−1

i∈ A

σn−2

i/∈ A

= m(xσni).

En los siguientes apítulos veremos de la importan ia de esta ara teriza ión para trabajar

en el espa io IRnen la búsqueda de fun iones que nos midan la in ertidumbre que una a.b.p.

onlleva.

Ejemplo 1.12 Consideremos ΩX = x1, x2, x3, tenemos que para ualquier a.b.p. m sobre

X obtenemos el onjunto onvexo aso iado determinado por las siguientes probabilidades, una

para ada permuta ión, expresadas en ada la de la tabla 1.1

Con la nota ión anteriormente expuesta.

Ejemplo 1.13 Apli ando la tabla 1.1 a la a.b.p. m siguiente

m1 = 0.2, m13 = 0.7

m123 = 0.1

tenemos el onjunto delimitado por los vérti es:

(1, 0, 0); (0.9, 0.1, 0); (0.2, 0.1, 0.7); (0.2, 0, 0.8),

que podemos ver en la gura 1.4

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 1.4: Conjunto convexo asociado a la a.b.p. del ejemplo 1.13

Esta rela ión es uno a uno, es de ir, por ejemplo en dimensión 3, para ualquier onjunto

de vérti es de la forma de la tabla 1.1 existe una sola a.b.p. de la que pro ede. Igualmente para

ualquier dimensión n.

σi p1 p2 p3

(1, 2, 3) m1 + m12 + m13 + m123 m2 + m23 m3

(1, 3, 2) m1 + m12 + m13 + m123 m2 m3 + m23

(2, 1, 3) m1 + m13 m2 + m12 + m23 + m123 m3

(2, 3, 1) m1 m2 + m12 + m23 + m123 m3 + m13

(3, 1, 2) m1 + m12 m2 m3 + m13 + m23 + m123

(3, 2, 1) m1 m2 + m12 m3 + m13 + m23 + m123

Tabla 1.1: Vértices del convexo asociado a una a.b.p. de dimensión 3

Las eviden ias no generalizan a los onjuntos de intervalos de probabilidad, tampo o se

veri a el re ípro o omo se puede ver en los ejemplos 1.14 y 1.15 siguientes:

Ejemplo 1.14 Para ΩX = x1, x2, x3 sea el siguiente onjunto de intervalos de probabilidad

L = [0, 0.5]; [0, 0.5]; [0, 0.5].

No existe una a.b.p. que tenga el mismo onvexo aso iado.

Tenemos que di ho onjunto de intervalos dan lugar al onvexo on vérti es

(0, 0, 0.5); (0, 0.5, 0); (0.5, 0, 0)

por lo que di ha a.b.p. m debería veri ar que

m1 + m12 + m13 + m123 = 0.5

m2 + m12 + m23 + m123 = 0.5

m3 + m13 + m23 + m123 = 0.5

m1 = m2 = m3 = 0

m2 + m23 = 0

m3 + m23 = 0

m1 + m13 = 0

m3 + m13 = 0

m1 + m12 = 0

m2 + m12 = 0,

ualquier otra op ión da lugar a una ontradi ión.

Quedando que mi = 0 y mij = 0 por lo que m123 = 0.5!!, lo que ontradi e que para una

a.b.p. la suma de todas las masas debe ser 1.

Ejemplo 1.15 Consideremos la siguiente eviden ia m sobre ΩX = x1, x2, x3, x4 denida omo:

m(x1, x2) = 0.5, m(x3, x4) = 0.5,

dene el siguiente onjunto de intervalos de probabilidades:

L = [0, 0.5]; [0, 0.5]; [0, 0.5]; [0, 0.5],

que ontienen a la distribu ión de probabilidad (0.5, 0.5, 0, 0) que no pertene e al onvexo de-

nido por m.

Es sen illo ver que las eviden ias generalizan a las distribu iones de probabilidad por todo lo

visto. De todas formas, para ada distribu ión de probabilidad p sobre X nito no tendríamos

más que onsiderar la a.b.p. m sobre X siguiente: mi = pi y m(A) = 0, ∀A ⊆ ℘(ΩX) tal que

|A| ≥ 2

1.6.3. Posibilidades

Formalmente, se pueden denir omo un tipo de fun iones de reen ia donde los onjuntos

fo ales son en ajados, es de ir, si Fm = A1, A2, · · · , Am enton es Ai1 ⊆ Ai2 ⊆ · · · ⊆ Aim ,

para alguna permuta ión σ = i1, i2, · · · , im on∑

i m(Ai) = 1.

En términos de probabilidades superiores e inferiores, una apa idad o probabilidad superior

P denida en ΩX para X nito, es una posibilidad si existe una fun ión π : ΩX → [0, 1] tal

P (A) = sup π(xi);xi ∈ A,

para todo A ⊆ ΩX .

A π se le llama distribu ión de posibilidad de P y veri a que si ΩX = x1, x2, · · · , xnexiste una permuta ión σ ∈ Sn tal que

1 = π(xi1) ≥ π(xi2) ≥ · · · ≥ π(xin),

siendo σ = (i1, i2, · · · , in). Además, tendrá aso iada la siguiente a.b.p.

mπ(A) =

π(xij )− π(xij+1) si A = xi1 , xi2 , · · · , xijπ(xin) si A = ΩX

0 en otro caso

Evidentemente son distintas a las distribu iones de probabilidad, pues no existe una pro-

babilidad p tal que p(xi) = 1 y p(xj) > 0, on j 6= i, y en ambio esto si es posible para

posibilidades.

La medida dual de una posibilidad P (A) = 1− P (Ac), se llama medida de ne esidad.

En Dubois y Prade [31 podemos ver unas interesantes propiedades de las posibilidades:

(i) P (A ∪B) = maxP (A), P (B)

(ii) P(⋃

γ∈Γ Aγ

)= sup P (Aγ)|γ ∈ Γ

(iii) P (A ∩B) = mınP (A), P (B)

(iv) P (A) = 0 o P (A) = 1 para todo A ⊆ ΩX

1.6.4. In lusión, marginaliza ión e independen ia de fun iones de reen ia

Ne esitaremos denir estos on eptos puesto que tendremos que trabajar on ellos mas ade-

lante uando nos entremos en las fun iones de in ertidumbre en los siguientes apítulos.

Utilizaremos la deni ión de in lusión que dieron Delgado y Moral [24, que estable e una

rela ión de orden en el onjunto de todas las a.b.p. sobre un onjunto nito X.

Deni ión 1.10 Sean m,m′dos a.b.p. sobre un onjunto nito X, diremos que m está on-

tenida en m′(m ⊆ m′

) si y solo si existe una apli a ión tA : ℘(ΩA)→ [0, 1] para ada A ⊆ X

que veri a:

m(A) =∑

B|B⊆A

tA(B),∀A ⊆ X

m′(B) =∑

A|A⊇B

tA(B),∀B ⊆ X

Está laro que si m ⊆ m′todas las probabilidades aso iadas a m′

son también aso iadas

a m aunque no se da la inversa. Es de ir si Cm y Cm′son los onvexos aso iados a m y m′

respe tivamente, enton es Cm′ ⊆ Cm.

La a.b.p. marginal de una dada la deniremos de la siguiente forma:

Deni ión 1.11 Sea m una a.b.p. sobre X × Y , on X,Y onjuntos nitos. Deniremos la

a.b.p. marginal de m sobre X omo

mX(A) =∑

R|A=RX

m(R),∀A ⊆ X,

donde RX es la proye ión del onjunto R ⊆ X × Y sobre X.

De forma análoga se deniría

mY (B) =∑

R|A=RY

m(R),∀B ⊆ Y,

La siguiente deni ión de independen ia, llamada independen ia de masas, será base para

trabajar on las propiedades de las fun iones que estudiaremos en el siguiente apítulo:

Deni ión 1.12 Sea m a.b.p. sobre X×Y , on X,Y onjuntos nitos, on proye iones mX

y mY sobre X e Y respe tivamente. Diremos que se produ e independen ia de masas bajo

m si y sólo si

m(A×B) = mX(A) ·mY (B),∀A ⊆ X,B ⊆ Y

Esta deni ión impli a que:

pl(A×B) = plX(A) · plY (B)

bel(A×B) = belX(A) · belY (B)

m(C) > 0 =⇒ ∃A ⊆ X,B ⊆ Y tal que C = A×B

Podemos denir también la ombina ión de dos a.b.p. mX ,mY sobre los onjuntos nitos

X,Y omo

m(A×B) = mX(A) ·mY (B),∀A×B ⊆ X × Y

m(R) = 0,∀R 6= A×B

produ iendo de forma evidente la independen ia de masas bajo m. Notaremos a esta m omo

mX ×mY . Que oin ide on el resultado de la ono ida regla de Dempster [25.

Capítulo 2

Trabajos previos sobre in ertidumbre

2.1. Introdu ión

El término in ertidumbre proviene de la lási a teoría de la informa ión (llamada también

teoría matemáti a de la informa ión para diferen iarla de la teoría de la informa ión rela io-

nada on el mundo de la omuni a ión periodísti a) basada en la teoría de la probabilidad y

la podemos entender omo el grado de des ono imiento del valor de la variable del fenómeno

que estamos estudiando. Cuando utilizamos un modelo, del tipo de los que hemos visto en el

apítulo anterior, para representar la informa ión in ompleta sobre la variable que estamos

estudiando, la fun ión que utili emos debe dar las probabilidades, o onjunto de ellas, de ada

uno de los posibles asos o estados de la variable. Sobre estos posibles onjuntos sería intere-

sante uanti ar on un valor real de qué manera el ono imiento al que representa nos permite

ono er el verdadero valor de la variable en estudio. Para ello, deberíamos estable er previa-

mente, de a uerdo on el modelo utilizado, qué tipo o tipos de in ertidumbre se nos presentan,

para después poder denir fun iones que sean apa es de medir éstos.

Este valor de in ertidumbre nos puede permitir, en una manera bási a, estable er qué fun-

ión de las que modelizan la informa ión, es más informativa, es de ir, presenta una menor

in ertidumbre.

El on epto de informa ión está íntimamente ligado al de in ertidumbre. Esta rela ión está

basada en la de ien ia informativa debido a las situa iones en la que ésta es in ompleta,

impre isa, fragmentada, vaga, ontradi toria o de iente en un aspe to u otro. El aumento de

la informa ión produ irá una disminu ión de la in ertidumbre.

40 Capítulo 2. Trabajos previos sobre incertidumbre

No debemos onfundir el on epto de informa ión on el que apare e en la teoría de la

omputabilidad, totalmente independiente del término in ertidumbre. En ésta, la antidad de

informa ión que representa un objeto se uanti a omo la longitud del programa más or-

to posible es rito en un lenguaje estandar determinado. A la informa ión de este tipo se le

denomina "informa ión des riptiva", aunque quizá es mas ono ida omo "informa ión algo-

rítmi a", Kolmogorov [63, Chaitin [16.

La teoría objeto de estudio en esta memoria se puede denominar omo teoría de la "infor-

ma ión basada en la in ertidumbre", Klir y Wierman [61, y está basada en los términos de

la lási a teoría de onjuntos estable ida por Hartley [41 y posteriormente en la teoría de la

probabilidad, por Shannon [89. La primera siempre se ha visto omo un aso espe ial de la

segunda. Posteriormente, estas ideas se han intentado trasladar a otras teorías más modernas

omo la teoría de de la posibilidad y la teoría de la eviden ia. En ésta última, en los años

90 se produjo un fru tífero desarrollo de medidas apa es de uanti ar un tipo u otro de las

in ertidumbres en ontradas, que veremos en este apítulo.

Aquí, pretendemos exponer, de forma resumida, los on eptos bási os de la lási a teoría de

la informa ión, así omo las propiedades de la medida original de la in ertidumbre, denominada

omo entropía de Shannon, Shannon [89. Después analizaremos la in ertidumbre en la teoría

de la eviden ia, donde veremos que apare en otros tipos de in ertidumbre que no se en ontraban

al trabajar on probabilidades pre isas. Hablaremos de las fun iones más interesantes que se

han utilizado en la teoría de la eviden ia desde un punto de vista omparativo on la entropía

de Shannon, referen ia ne esaria en la teoría de la probabilidad.

Al ser la teoría de la eviden ia una generaliza ión de la teoría de la probabilidad, se pre-

tende el estudio de la in ertidumbre en la primera omo una generaliza ión del de la segunda,

onsiderando omo mejores fun iones aquellas que veriquen propiedades similares a las que

veri a la entropía de Shannon para probabilidades.

Se ha bus ado una medida de in ertidumbre total, que englobe en un sólo valor todos los tipos

anteriores, umpliendo una serie de propiedades mínimas ne esarias. Nosotros evaluaremos

distintas propuestas onsiderando a la planteada por Maeda e I hihashi [69 omo la medida

de ele ión entre todas las existentes, aunque ellos no exponen dire tamente di ha fun ión,

sino que la omponen partiendo de dos fun iones previamente bien estable idas. De todas

formas, analizaremos su omportamiento en ontrando que en determinadas situa iones no

es intuitivamente orre to, omo veremos, por lo que añadiremos un fa tor que es apaz de

2.2. Teoría clásica de la información 41

arreglar los problemas en ontrados y que tiene una serie de interesantes propiedades, basándose

también en la teoría lási a de la informa ión, on retamente en la distan ia de Kullba k [64.

El apítulo lo dividiremos en dos se iones. En la primera estable eremos on eptos previos

de la teoría lási a de la informa ión, ne esarios para la buena omprensión de los trabajos

posteriores. En la segunda se ión, haremos un estudio de las medidas de in ertidumbre en la

teoría de la eviden ia y propondremos nuestro fa tor de orre ión a la de Maeda e I hihashi.

2.2. Teoría lási a de la informa ión

Los primeros estudios sobre teoría de la informa ión se deben a Nyguist [77, 78 y a Hartley

[41, que se entran en problemas rela ionados on la trasmisión, alma enaje y genera ión de

la informa ión. Aunque fue Hartley él que estable e una primera medida uantitativa de la

informa ión deniendo el ritmo de trasmisión de informa ión en un sistema de omuni a ión,

omo el logaritmo del total de posibles mensajes equiprobables que se pueden estable er a través

de ese sistema.

Wiener [106, 107, desarrolla lo que se denomina ibernéti a, estudio de la losofía general

y el ontrol de la omuni a ión. Estable e que las señales pertene ientes a un onjunto que

se denomina de señales orre tas y las que no pertene es, llamadas interferen ias o ruidos,

se pueden estable er omo pro esos aleatorios en fun ión de sus probabilidades. Teniendo en

uenta esto, Shannon [89, 90 realiza diversos trabajos en los que introdu e el on epto de

entropía y apa idad de un anal en los sistemas de omuni a ión. Aunque no fue el úni o in-

vestigador en ese ampo, se le puede onsiderar omo el reador de la teoría de la informa ión.

Otros investigadores omo Fano [35, realizan trabajos similares en esa misma épo a, aunque

las on lusiones y enfoques de Shannon fueron más ompletos.

En nuestro país, tenemos que desta ar el libro, que a prin ipios de los 80 presenta Gil [37,

donde expone sin ex esivo desarrollo, los fundamentos bási os de la teoría de la informa ión y

su onexión on otras teorías omo la de la omuni a ión, de isión, grafos, et ...

A ontinua ión vamos a ver los aspe tos fundamentales de la medida de Hartley y de la

entropía de Shannon, orígenes de nuestras a tuales medidas de in ertidumbre.

2.2.1. Medidas lási as de in ertidumbre

El término de entropía, de origen quími o, denía un grado de desorden que se puede medir

en los gases. Shannon lo adoptó, no entraremos en la fortuna de di ho a oplamiento, a la

teoría de la informa ión para denominar a su medida de in ertidumbre. Probablemente pensó

en la similitud matemáti a que tenía su medida on respe to a la entropía denida en iertas

formulas de me anismos estadísti os apli ado a las molé ulas de los gases.

La medida de Hartley [41, anterior a la entropía de Shannon, se formula en términos de

la lási a teoría de onjuntos a diferen ia de la segunda que se estable e en términos de la

probabilidad, aunque ambas miden algún aspe to distinto de la in ertidumbre. La medida de

Hartley uanti a lo que posteriormente denominaremos omo no-espe i idad, in ertidumbre

proveniente de la ardinalidad del onjunto en el que sabemos está el verdadero valor de la

variable que se estudia. La medida de Shannon uanti a el grado de oni to que se estable e

entre los elementos individuales.

2.2.1.1. Medida de informa ión de Hartley

Hartley [41, espresa su medida de in ertidumbre utilizando la teoría de onjuntos nitos,

quizás la forma mas simple de estudiarla. Supongamos que el verdadero valor de una variable

pertene e a sub onjunto de símbolos del total en un sistema determinado de omuni a ión.

Partimos del ono imiento de que el verdadero valor está en ese sub onjunto, pero no se sabe

nada sobre qué valor on reto de ese onjunto es. Para eliminar la in ertidumbre que esto

representa, Hartley estable e la siguiente rela ión on respe to a la informa ión: "la antidad

de in ertidumbre que onlleva nuestro problema debe ser igual a la antidad de informa ión

ne esaria para eliminar di ha in ertidumbre".

Matemáti amente pro ede de la siguiente manera: onsideramos un onjunto nito de sím-

bolos A, que ontiene el valor que bus amos en un ontexto relativo a un sistema de omu-

ni a ión. Sabemos que podemos formar se uen ias de los elementos de A ha iendo su esivas

sele iones. Sele ionando m elementos tendríamos un total de |A|m posibles se uen ias, tam-

bién podríamos llamarlas palabras. La antidad de informa ión ne esaria para eliminar la

in ertidumbre aso iada on las palabras de tamaño m debe ser propor ional a m, es de ir, si

llamamos IH(|A|m) a la informa ión ne esaria, enton es

IH(|A|m) = k(|A|)m

donde k(|A|) es una onstante dependiente de (|A|).Considerando los onjuntos A,B tales que |A| 6= |B|, si al ulamos palabras de tamaño

m1 en A y de tamaño m2 en B, y suponemos que existe el mismo número de palabras en

ambos asos, enton es en ambos asos ne esitaríamos la misma antidad de informa ión para

eliminar la in ertidumbre aso iada, por lo que:

|A|m1 = |B|m2

k(|A|)m1 = k(|B|)m2.

Apli ando logaritmos en la primera tenemos que

logb |A|logb |B|

lo que produ e

k(|A|)k(|B|) =

logb |A|logb |B|

que sólo se satisfa e si

k(|A|) ∼ log2|A|,

entendiendo el símbolo ∼ omo propor ional. Esto determina k(|A|) salvo una onstante de

propor ionalidad. Podemos onsiderar k(|A|) = log2 |A| y enton es de imos que estamos uan-

ti ando la in ertidumbre en bits. Formalmente si trabajamos on un onjunto universal nito

X, tenemos que IH es una fun ión denida

IH : ℘(ΩX)→ IR+,

on rango

0 ≤ IH(A) ≤ log2 |X|.

Renyi [85 la ara teriza de la siguiente manera: teniendo en uenta sólo el número de

elementos del onjunto A de ℘(Ω), IH se puede onsiderar omo una fun ión de IN en IR+.

De esta forma, Renyi, ara teriza a esta fun ión on los siguientes axiomas:

(i) IH(n ·m) = IH(n) + IH(m) (Aditividad)

(ii) IH(n) ≤ IH(n + 1) (Monotonía)

(iii) IH(2) = 1 (Normaliza ión)

donde el primer axioma impli a que ualquier onjunto on n ·m elementos se puede dividir en

n sub onjuntos de m elementos. El segundo representa que uanto mayor es el onjunto mayor

es la informa ión ne esaria para eliminar la in ertidumbre aso iada. Y el ter ero es ne esario

para trabajar en bits.

Renyi, fortale e on estos axiomas a la fun ión de Hartley, demostrando a partir de ellos

el siguiente teorema:

Teorema 2.1 La fun ión IH(n) = log2(n) es la úni a que satisfa e los axiomas (i), (ii) y

(iii).

Si onsideramos dos universales nitos X,Y y una rela ión R ⊂ X × Y , en el mismo

ontexto anterior. Suponiendo que R tiene dominio sobre los onjuntos RX ⊆ X y RY ⊆ Y ,

Hartley [41 dene análogamente fun iones de in ertidumbre marginale y onjuntas de la forma

IH(X) = log2|RX |

IH(Y ) = log2|RY |

IH(X,Y ) = log2(R)

También dene las in ertidumbres ondi ionadas:

IH(X/Y ) = log2

|R||RY |

IH(Y/X) = log2|R||RX |

Higashi y Klir [42 generalizan la fun ión de Hartley de la lási a teoría de onjuntos a la

teoría de onjuntos difusos y a la de la posibilidad. En esta última, si tenemos una distribu ión

de posibilidad π(π1, π2, . . . , πn) tal que

1 = π1 ≥ π2 ≥ . . . ≥ πn,

denen lo que denominan U-un ertainty de π omo:

U(π) =

(πi − πi+1) log2 i =

πi log2

i− 1

Si lo expresáramos en términos de la asigna ión bási a de probabilidad orrespondiente a

π, tendríamos:

U(m) =n∑

m(x1, x2, . . . , xi) log2 i,

expresión que, omo veremos en apartados posteriores, utilizarán Dubois y Prade [29 para

denir su fun ión de no-espe i idad en la teoría de la eviden ia, aprove hando las buenas

propiedades de esta fun ión, omo medida de informa ión e in ertidumbre en la teoría de la

posibilidad. Es más Klir y Mariano [56, demuestran que esta fun ión es la úni a medida de

no-espe i idad posibilísti a apaz de veri ar los axiomas anteriores.

2.2.1.2. Entropía de Shannon

Shannon [89 dedu e una medida de in ertidumbre de informa ión formulada en términos

de la teoría de la probabilidad, llamándola entropía, en base al siguiente razonamiento: si

partimos de un universal nito X y ono emos que la probabilidad de que el experimento

(generalizamos el uso de los sistemas de omuni a ión que es lo que realmente utiliza Shannon),

que realizamos, nos de el valor xs ∈ X es alta, enton es en el aso de que o urra xs nos

sorprenderíamos po o, por lo que nuestra in ertidumbre sobre el experimento sería mínima. Por

el ontrario, si la probabilidad de xs es muy pequeña nos sorprendería bastante la o urren ia de

xs, por lo que la in ertidumbre sobre nuestro pronósti o xs sería bastante grande y por tanto,

también la informa ión que obtendríamos si o urre xs. Por onsiguiente, una fun ión que nos

exprese nuestra in ertidumbre en el pronósti o que hagamos debe ser una fun ión de re iente

on respe to al valor de la probabilidad de ada aso aislado, de ada xs.

Esta fun ión que se puede denir para ada xs ∈ X on probabilidad p(xs) la podemos

expresar omo

u : [0, 1]→ [0,∞)

on u(a) > u(b) para a < b puesto que p(xs) ∈ [0, 1]

Para observa iones independientes en sentido probabilísti o, debería veri arse que

u(p(x, y)) = u(p(x)) + u(p(y))

uando p(x, y) = p(x)p(y).

Partiendo de esta ono ida e ua ión de Cau hy, la solu ión a nuestro problema es

u(x) = k logb(x),

donde k es una onstante que debe ser negativa, puesto que la fun ión logarítmi a es re iente

y nuestra fun ión u debe ser de re iente.

Además, análogamente a la fun ión de Hartley, si uanti amos la informa ión en bits,

tendríamos que b = 2 y añadiendo el requerimiento de la normaliza ión omo u(1/2) = 1

obtendríamos que k = −1 y

u(x) = − log2(x).

Si onsideramos el onjunto ompleto de los valores de X, del experimento, on p(xs) las

probabilidades para ada xs ∈ X, el valor esperado de nuestra fun ión de in ertidumbre sería

igual a la siguiente esperanza matemáti a:

u = E(u) = −∑

p(x) log2 p(x).

Esta fun ión es la que Shannon dene omo entropía de una distribu ión de probabilidad p,

denotandola omo H(p) = −∑x∈X p(x) log2 p(x).

La rela ión de esta fun ión on la anterior de Hartley tiene ierta ontroversia. Por un

lado el valor de medida de Hartley se obtiene de la entropía de Shannon ha iendo todos los

elementos xs equiprobables, on probabilidad 1/|X|. Pero, de he ho, la entropía de Shannon y la

medida de informa ión de Hartley miden aspe tos distintos sobre in ertidumbre e informa ión.

Para ara terizar a una medida de in ertidumbre,

H : ℘(ΩX)→ [0,∞),

siendo ℘(ΩX), el onjunto de todas las distribu iones de probabilidad sobre los elementos de

ΩX , se puede utilizar en la teoría de la probabilidad, Klir y Folger [55, el umplimiento de la

siguiente axiomáti a:

(H1) Expansibilidad

Cuando se añade un omponente on probabilidad ero la in ertidumbre no debe ambiar.

Formalmente

H(p1, p2, . . . , pn) = H(p1, p2, . . . , pn, 0)

para todo (p1, p2, . . . , pn) ∈ ℘(ΩX)

(H2) Simetría

La in ertidumbre debe permane er invariante on respe to a ualquier permuta ión de

las probabilidades de una distribu ión de probabilidad. Es de ir,

H(p) = H(σ(p))

siendo σ(p) permuta ión de las probabilidades de p

σ(p) = (pi1, pi2 , . . . , pin),

p = (p1, p2, . . . , pn)

(H3) Continuidad

La fun ión H debe ser ontinua en todos sus argumentos p1, p2, . . . , pn (a menudo se

sustituye esta ondi ión por una más débil: que H(q, 1 − q) sea ontinua en q en el

intervalo [0, 1]).

(H4) Máximo

H debe obtener su máximo uando todos los elementos de X sean equiprobables. Es de ir,

H(p) ≤ H(1

n, . . . ,

para todo p ∈ ℘(ΩX), on |X| = n

(H5) Subaditividad

La in ertidumbre de una distribu ión de probabilidad onjunta no debe ser mayor que la

suma de las in ertidumbres de sus orrespondientes distribu iones marginales. Formal-

H(p11, p12, . . . , p1m, p21, p22, . . . , p2m, . . . , pn1, pn2, . . . , pnm) ≤

≤ H(m∑

pi1,m∑

pi2, . . . ,m∑

pin) + H(n∑

p1j ,n∑

p2j , . . . ,n∑

para ualquier distribu ión onjunta de ℘(ΩX×Y ) on |X| = n y |Y | = m

(H6) Aditividad

Con la nota ión anterior, para dos distribu iones marginales, sobre X e Y respe tiva-

mente, la in ertidumbre aso iada a su distribu ión onjunta, si se da la independen ia,

debe ser igual a la suma de las in ertidumbres de las distribu iones marginales:

H(pp′) = H(p) + H(p′),

donde p ∈ ℘(ΩX)), p′ ∈ ℘(ΩY ) y pp′ ∈ ℘(ΩX×Y ).

A ve es sólo se requiere esta propiedad de forma débil: onsiderando la anterior igualdad

on p y p′ las distribu iones uniformes sobre X e Y , respe tivamente.

(H7) Monotonía

Para las distribu iones equiprobables la in ertidumbre debe aumentar uando aumenta n

H(n) ≤ H(n + 1).

Entendiendo omo H(n) a la entropía de la distribu ión uniforme para onjuntos de

ardinal n.

(H8) Rami a ión

Dada una distribu ión de probabilidad sobre un onjunto nito X, la antidad de in er-

tidumbre debería ser la misma si se al ula de forma global o lo al. Entendiéndose omo

ál ulo lo al aquel que se realiza en dos etapas: en la primera al ularíamos la in ertidum-

bre de una familia de sub onjuntos disjuntos y exhaustivos de X y en la segunda al ula-

ríamos la in ertidumbre relativa a esos sub onjuntos. Es de ir, sean A = x1, x2, . . . , xsy Bxs+1, . . . , xn on A ∩B = ∅ y A ∪B = X. Denotando omo

este axioma se puede espe i ar por la e ua ión

H(p1, p2, . . . , pn) = H(PA, PB) + PA ·H(p1

PA, . . . ,

PA) + PB ·H(

PB, . . . ,

(H9) Normaliza ión

Si queremos uanti ar la in ertidumbre en bits, enton es se debe umplir que H(1/2, 1/2) =

Como podemos ver en toda la literatura de la teoría lási a de la informa ión, para a-

ra terizar una medida probabilísti a de in ertidumbre no es ne esario el onjunto ompleto de

los nueve axiomas anteriores (Klir y Folger [55). Cualquiera de las siguientes ole iones de

axiomas se han demostrado omo su ientes para ara terizar di ha medida:

1.- H3, aditividad débil, H7, H8 y H9

2.- H1, H3, H4, H8 y H9

3.- H2, H3, H8 y H9

4.- H1, H2, H3, H5, H6 y H9

Klir y Wierman [61 demuestran que la entropía de Shannon es la úni a fun ión que veri a

el primer onjunto de axiomas anterior. Esto le da una mayor importan ia a esta fun ión. El

resto de propiedades también son veri adas por la entropía de Shannon omo se puede ver en

la amplia literatura sobre este tema en la teoría de la informa ión.

Interesantes apli a iones tienen también las entropías onjuntas, marginal y ondi ional,

denidas a partir de dos onjuntos nitos X e Y . Vamos a denirlas, utilizando la nota ión de

Klir y Folger [55, donde utilizan H(X) en lugar de H(p(x)|x ∈ X) o H(p1, p2, . . . , pn). Para

simpli ar la nota ión, se utilizarán p(x) y p(y) para referirnos a las probabilidades marginales

sobre X e Y respe tivamente y p(x, y) a la probabilidad onjunta sobre X×Y . Finalmente nos

referiremos omo p(x/y) y p(y/x) a las distribu iones ondi ionales.

Ahora, dados dos onjuntos nitos X e Y tenemos las siguientes entropías:

1. Dos entropías simples basadas en las distribu iones marginales

H(X) = −∑

p(x) log2 p(x)

H(Y ) = −∑

p(y) log2 p(y)

2. Una entropía onjunta denida en términos de la la distribu ión onjunta sobre X × Y

H(X,Y ) = −∑

(x,y)∈X×Y

p(x, y) log2 p(x, y)

3. Dos entropías ondi ionales denidas en términos de las probabilidades ondi ionales de

X sobre Y y vi eversa.

H(X/Y ) = −∑

p(y)∑

p(x/y) log2 p(x/y)

H(Y/X) = −∑

p(x)∑

p(y/x) log2 p(y/x)

Se pueden demostrar, Klir y Folger [55, las siguientes propiedades sobre las fun iones

entrópi as anteriores

I. H(X/Y ) = H(X,Y )−H(Y ) (análogamente H(Y/X) = H(X,Y )−H(X))

II. H(X,Y ) ≤ H(X) + H(Y )

III. H(X) ≥ H(X/Y ) (análogamente H(Y ) ≥ (Y/X))

Para a abar on este apartado, y volviendo a nuestra nota ión, vamos a introdu ir aquí

resultados interesantes para nuestro trabajo, que han sido estable idas dentro de la teoría de la

informa ión.

Un teorema muy importante en la teoría de la informa ión, esen ial para la demostra ión

de gran antidad de propiedades de la entropía de Shannon, es el llamado Teorema de Gibbs

o Desigualdad de Gibbs. Es una desigualdad altamente utilizada omo herramienta que no

sólo es útil para las propiedades de la entropía de Shannon, sino, omo veremos, también la

utilizaremos nosotros para demostrar propiedades de fun iones similares a ésta.

Teorema 2.2 Para dos ualesquiera distribu iones de probabilidad p, q sobre un onjunto -

nito X, se veri a que

−∑

pi log2 pi ≤ −∑

pi log2 qi

y la igualdad se veri a uando pi = qi, ∀i ∈ 1, 2, . . . , n on |X| = n

Este teorema ha sido ampliamente demostrado. Nosotros daremos, en el Apéndi e C del

apítulo 3, una demostra ión propia.

De forma rápida, podemos utilizar este resultado para demostrar que el máximo de la en-

tropía de Shannon es el valor que se obtiene para la distribu ión uniforme:

−∑

pi log2 pi ≤ −∑

pi log2

n= − log2

pi = log2 n = −∑

luego H(p) ≤ log2 n on |X| = n y p distribu ión de probabilidad sobre X.

Otro interesante on epto es el ono ido omo entropía ruzada o "distan ia"de Kullba k

[64, introdu ida en la teoría de la informa ión para medir la divergen ia de dos distribu iones

de probabilidad tomando omo base la entropía de Shannon, por lo que se ono e también omo

entropía ruzada de Shannon.

Deni ión 2.1 Dadas dos distribu iones de probabilidad p, q sobre un onjunto nito X,

denimos

K(p, q) =∑

p(x) log

)= −

p(x) log q(x) +∑

p(x) log p(x),

donde el valor 0/0 se onsidera 0 y si para algún x tal que q(x) = 0 y p(x) 6= 0 enton es

de imos que K(p, q) diverge.

Es fá il ver que está denida positiva (suponiendo que 0 log(0) = 0), simplemente apli ando

la desigualdad de Gibbs.

No tiene todas las propiedades de una distan ia, aunque se la denomine así. Es una fun ión

similar a una medida de informa ión y se le puede onsiderar omo una medida de "divergen ia

dire ta", Kullba k [64.

Normalmente se ha empleado omo medida del grado en que una distribu ión de probabilidad

estimada q se aproxima a la distribu ión p. Algunas de las apli a iones de esta entropía ruzada

las podemos ven en el libro de Klir y Folger [55. Nosotros la utilizaremos para denir una

medida de in ertidumbre en el siguiente apítulo.

Una de sus ventajas respe to a otras distan ias entre distribu iones de probabilidad, omo la

eu lídea, es que pondera más las diferen ias de probabilidad en valores pequeños que en valores

intermedios, omo podemos ver en el siguiente ejemplo:

Ejemplo 2.1 Sean las distribu iones de probabilidad sobre X = x1, x2, x3 siguientes

p(0.2, 0.2, 0.6); q(0.1, 0.1, 0.8)

y sea t = 1/2(p + q) = (0.15, 0.15, 0.7). Llamando d a la distan ia eu lídea sobre IR3tenemos

d(p, q) = 0.24, K(p, q) = 0.14,

d(p, t) = 0.12, K(p, t) = 0.03,

d(q, t) = 0.12, K(q, t) = 0.19.

Donde hemos utilizado logaritmos en base 2.

Entre p y t, mientras que on la distan ia eu lídea, al tomar la probabilidad intermedia

entre dos, obtenemos la mitad de la distan ia, on la Kullba k no es así bajando hasta un 20%

ésta. Observemos que entre q y t las distan ia de Kullba k es mayor que entre p y t al ser los

valores de q más extremos.

2.2.2. Prin ipios de in ertidumbre

Debido a la rela ión que existe entre in ertidumbre e informa ión, éstos se pueden denomi-

nar omo prin ipios de informa ión. Son prin ipios lógi os que tienen un origen motivado en

el buen fun ionamiento y uni idad de la entropía de Shannon omo medida de in ertidumbre

en la teoría de la probabilidad y omo veremos, se podrán extender a otras teorías que genera-

li en a ésta. Desde un punto de vista prá ti o, suponen unas reglas bási as para la apli a ión

de estas medidas en situa iones on retas. Vamos a ha er una breve des rip ión de ellos.

Prin ipio de mínima in ertidumbre

Bási amente nos di e que entre todas las alternativas posibles, en problemas que onlleven

in ertidumbre y en las que halla una pérdida de informa ión, debemos elegir aquellas en las que

la in ertidumbre sea mínima. Se puede onsiderar omo una versión del prin ipio de simpli-

a ión que estable e que uando queremos redu ir la omplejidad de un sistema redu iéndolo

a otros más simples y tenemos varias formas de realizarlo debemos sele ionar aquella op ión

en la que la pérdida de la informa ión sea mínima, o lo que es lo mismo, la que el aumento de

in ertidumbre sea mínimo. Este prin ipio surge omo una regla que nos ayuda a de idir qué

simpli a iones tenemos que tomar en determinadas situa iones. Aunque la apli a ión de este

prin ipio a los problemas de simpli a ión no es la úni a, quizás si sea la más importante.

Otra apli a ión de este prin ipio es en el área de los problemas de oni to-resolu ión, Klir

En Christensen [19, 20, 21 y en Watanabe [104, 105 tenemos referen ias del uso de este

prin ipio en la teoría de la probabilidad, aunque también se ha apli ado fuera de ella sobre

todo por Klir (Cavallo y Klir [14, Klir [49, 53, Klir y Parviz [57, Klir y Way [60).

Veamos un ejemplo de apli a ión de este prin ipio

Ejemplo 2.2 Supongamos que tenemos dos variables X1 y X2 rela ionadas, X2 depende de

X1, donde ΩX1 = bajo,medio, alto y ΩX2 = bajo, alto. Supongamos que tenemos una

distribu ión onjunta dada por la tabla 2.1

X1 X2 p(X1,X2)

Bajo Bajo 0.2

Bajo Alto 0.2

Medio Bajo 0.15

Medio Alto 0.05

Alto Bajo 0.1

Alto Alto 0.3

Tabla 2.1: Valores de la distribución conjunta de X1 y X2

La in ertidumbre relevante la expresará la entropía ondi ional, on la nota ión usada an-

teriormente para el aso, H(X2/X1), obteniendo:

H(X2/X1) = −2 · 0.2 log2 0.2− 0.15 log2 0.15 − 0.5 log2 0.5− 0.1 log2 0.1 − 0.3 log2 0.3 = 2.41

H(X1) = −2 · 0.4 log2 0.4− 0.2 log2 0.2 = 1.52

H(X2/X1) = H(X1/X2)−H(X1) = 0.89

Ahora, queremos ha er una simpli a ión del sistema a alguno de los siguientes:

S1 : In luimos el estado "Medio"de X1 en "Bajo".

S2 : In luimos el estado "Medio"de X1 en .

Se puede ver el resultado de las probabilidades, en las distintas simpli a iones, en las tablas

2.2 y 2.3:

En la tabla 2.4 podemos ver las entropías resultantes en ada uno de los sistemas.

Lo que, obviamente, nos lleva a elegir la simpli a ión 1 por tener menor in ertidumbre.

X1 X2 p(X1,X2)

Bajo Bajo 0.35

Bajo Alto 0.25

Alto Bajo 0.1

Alto Alto 0.3

Tabla 2.2: Resultados de las probabilidades de la simplificación S1

X1 X2 p(X1,X2)

Bajo Bajo 0.2

Bajo Alto 0.2

Alto Bajo 0.25

Alto Alto 0.35

Tabla 2.3: Resultados de las probabilidades de la simplificación S2

H1(X1,X2) = 1.88 H2(X1,X2) = 1.96

H1(X1) = 0.97 H2(X1) = 0.97

H1(X2/X1) = 0.91 H2(X2/X1) = 0.99

Tabla 2.4: Valores de la entropías resultantes de las simplificaciones S1 y S2

Prin ipio de máxima entropía

Es un prin ipio dual del anterior. Nos garantiza que toda nuestra falta de informa ión se

tiene que tener en uenta uando reali emos un renamiento de nuestro ono imiento, no

podemos añadir más informa ión a nuestro ono imiento. Se puede expresar de la siguiente

manera: no se debe usar más informa ión de la que dispongamos. En términos probabilísti os,

nos expresa que entre todas las distribu iones de probabilidad posibles a elegir, debemos tomar

aquella que, estando de a uerdo on los datos de nuestro problema, onlleve la mayor in er-

tidumbre. Por ejemplo, en aquellos asos en los que no tenemos ninguna eviden ia, o di ho

de otra forma: somos ignorantes en la materia según la informa ión disponible, este prin ipio

nos haría elegir omo solu ión la distribu ión de probabilidad uniforme.

Matemáti amente la formula ión de este prin ipio sería la siguiente: dado un onjunto

nito de n elementos, debemos de determinar la distribu ión de probabilidad que maximi e

la entropía de Shannon sujeto a las restri iones que representa la eviden ia disponible. En

general se trataría de resolver un problema de optimiza ión no lineal.

En Klir y Folger [55 podemos ver ejemplos de apli a iones de este prin ipio.

Estos dos prin ipios se pueden onsiderar omo prin ipios ligados a la medida de entropía

de Shannon evidentemente, puesto que es la herramienta utilizada. Ahora, uando utili emos

modelos más generales, tendremos situa iones en los que se nos pueden plantear otros tipos de

in ertidumbre y tendremos que utilizarlos a través de otras medidas de in ertidumbre.

Los trabajos sobre el prin ipio de máxima entropía son bastante numerosos. Estable ido

por Jaynes [45, tenemos un gran número de apli a iones en Christensen [19, 20, 21, Kapur

[46, 47 y Tribus [93.

Este prin ipio se puede generalizar on el prin ipio de mínima entropía ruzada, Williams

[108, Shore y Johnson [91, donde se utiliza la expresión de Kullba k anteriormente vista. Se

pueden ver justi a iones y expli a iones de este prin ipio en el libro de Klir y Wierman [61.

Prin ipio de in ertidumbre invariante

Debido a la gran antidad de modelos matemáti os que son apa es de representar la in er-

tidumbre, tales omo los que vimos en el apítulo 1, se nos plantea la ne esidad de tratar on

distintas representa iones de la misma informa ión.

Cuando una informa ión representada según un modelo la omparamos on la representa-

ión en otro modelo distinto, la antidad de in ertidumbre o informa ión debería de mantener-

se. Esto es lo que estable e el prin ipio de in ertidumbre invariante: el medio de formaliza ión

no debe añadir o eliminar in ertidumbre o informa ión.

Este prin ipio introdu ido por Klir [50, 51 nos obliga a uni ar las distintas medidas para

la uanti a ión de la in ertidumbre apli adas a los distintos modelos matemáti os de repre-

senta ión. Como expli amos al omienzo de este trabajo, ésta es la línea bási a de nuestros

esfuerzo. Esta idea nos lleva a omenzar on el estudio de las medidas de in ertidumbre en la

teoría de la eviden ia, que veremos en la siguiente se ión. Estas medidas serán estudiadas y se

propondrán modi a iones de las mismas. Cuando en onjuntos onvexos denamos medidas

de in ertidumbre, trataremos de generalizar las onsideradas en la teoría de la eviden ia.

2.3. In ertidumbre en la teoría de la eviden ia

Puesto que estamos estudiando la in ertidumbre en una teoría que generaliza a la teoría de

la probabilidad, lo primero que debemos pensar, de a uerdo on el prin ipio de in ertidumbre

invariante, es que las medidas propuestas aquí deben generalizar a la entropía de Shannon,

veri ando un onjunto de propiedades similares a los que ésta veri a en la teoría de la

probabilidad. En la dé ada de los 90 se desarrolló una importante serie de trabajos sobre la

medi ión de la in ertidumbre en la teoría de la eviden ia, en los que tenemos que desta ar los

trabajos que Klir y otros investigadores realizaron, Klir y Folger [55, Klir y Ramer [59, Klir

y Parviz [58, Harmane y Klir [39, Klir y Wierman [61 y Ramer [83, Maeda e I hihashi

[69, Lamata y Moral [65, Yager [109 y Dubois y Prade [29 entre otros.

Lo primero que debemos de analizar es qué tipos de in ertidumbre nos vamos a en ontrar en

esta teoría, puesto que ahora no sólo trabajamos on elementos individuales, sino que tenemos

que tener en uenta los valores de las probabilidades de los onjuntos de ardinalidad mayor

que uno, pues una asigna ión bási a de probabilidad puede asignar masa positiva dire tamente

a este tipo de onjuntos y es lo que onstituye su diferen ia fundamental on la teoría de la

probabilidad. Por lo tanto, hay una nueva dimensión para la ignoran ia: la impre isión.

Debemos delimitar exa tamente qué tipos de in ertidumbre vamos a tener, para justi ar

posteriormente su medi ión. Las medidas expuestas para tal n deberían, de forma matemáti a,

ser tan onsistentes omo la entropía de Shannon.

El prin ipal es ollo estriba en que queremos omparar una medida basada en más de un

tipo de in ertidumbre on la entropía de Shannon que se basa en probabilidades simples, por lo

2.3. Incertidumbre en la teoría de la evidencia 57

que el valor de la in ertidumbre debe ampliarse on otro fa tor. Luego al medir varios tipos de

in ertidumbre, alguno similar al entrópi o, el rango de la in ertidumbre total puede ser mayor

que el de la entropía de Shannon para probabilidades.

Estudiaremos las medidas planteadas en la teoría de la eviden ia, teniendo en uenta su

justi a ión intuitiva y matemáti a y en ontraremos fun iones apa es de veri ar una an-

tidad de propiedades similar a las que veri aba la entropía de Shannon para probabilidades.

Nos entraremos en la que tiene mejor omportamiento en ambos aspe tos y haremos nota

de alguna in ongruen ia en su apli a ión, que arreglaremos on la introdu ión de un nuevo

fa tor.

En la subse ión 2.2.1 estable eremos, qué tipos de in ertidumbre nos vamos a en ontrar, lo

que nos llevará a justi ar el estudio de su medi ión. Así mismo, omentaremos las propiedades

que una fun ión de in ertidumbre debe umplir, ya sea para medir un aspe to de in ertidumbre

o para medir la in ertidumbre de una forma global. En la subse ión 2.2.2 analizaremos las

medidas que se han propuesto para medir las in ertidumbres expuestas en el apartado anterior.

En la subse ión 2.2.3 omentaremos los problemas en ontrados en la medida de in ertidum-

bre total que mejor fun iona intuitiva y matemáti amente en este modelo. Finalmente, en la

subse ión 2.2.4 deniremos un nuevo fa tor de orre ión que modi a la medida anterior y

demostraremos sus propiedades.

2.3.1. Tipos de in ertidumbre en la teoría de la eviden ia

Klir y Wierman [61 dan un ex elente resumen de los tipos de in ertidumbre que nos po-

demos en ontrar en la teoría lási a de onjuntos, teoría de onjuntos difusos, teoría de la

probabilidad y teoría de la eviden ia. Determinan tres tipos laramente diferen iados:

· Borroso o vago, que resulta de la impre isión en las espe i a iones de los onjuntos

difusos.

· No-espe i idad o impre isión, que está rela ionada on las ardinalidades o tamaños de

los onjuntos relevantes.

· Aleatoriedad o dis ordia, que expresa el oni to entre los onjuntos de varias altenativas.

En la gura 2.1 vemos un esquema de las in ertidumbres anteriores.

INCERTIDUMBRE

VAGUEDAD AMBIGUEDAD

ALEATORIEDAD NOESPECIFICIDAD

Figura 2.1: Tipos de incertidumbre encontradas en las distintas teorías

Evidentemente, en ada teoría no tenemos por qué en ontrarnos on todos esos tipos de

in ertidumbre, aunque también es posible que próximos trabajos sean apa es de dete tar otros

tipos de in ertidumbres en algún modelo.

Otros términos que están rela ionados on los anteriores son los siguientes:

- Vaguedad: turbio, os uro, nebuloso, indistinguible.

- Aleatoriedad: disonan ia, in ongruen ia, dis repan ia, oni to, dis ordia.

- No-espe i idad: variedad, generalidad, diversidad, equivo a ión, impre isión.

Como vemos, distinguiremos de forma general en dos tipos de in ertidumbre, entendiendo

por ambigüedad la in ertidumbre general que se estable e uando hay rela iones de uno a

mu hos.

Si nos entramos en la teoría de la eviden ia lási a no podemos hablar de vaguedad en

uanto a la delimita ión de los onjuntos relevantes de ésta, onjuntos fo ales, por lo que sólo

podemos hablar de in ertidumbre de tipo ambiguo. Luego, omo justi a Yager [109, en la

teoría de la eviden ia nos vamos a en ontrar sólo on dos tipos in ertidumbre, aleatoriedad,

entendida omo el desa uerdo en la ele ión entre varias alternativas y no-espe i idad, omo

in ertidumbre produ ida uando la eviden ia no nos permite elegir entre las alternativas de un

onjunto de ardinal mayor que uno. Veamos on el siguiente ejemplo el signi ado de estos

tipos de in ertidumbre.

Ejemplo 2.3 Sean m1,m2 dos asigna iones bási as de probabilidad sobre el onjunto X =

x1, x2, x3, x4 tal que

m1(x1) = 0.3,m1(x2) = 0.4,m1(x3) = 0.1,m1(x4) = 0.2

m2(x1, x2, x3) = 0.7,m2(x4) = 0.3

Como podemos ver en m1 la úni a in ertidumbre que se nos plantea es la de elegir entre

los elementos individuales xs, puesto que éstos son los úni os elementos fo ales. Tendríamos

una in ertidumbre de tipo oni to o dis ordia entre los elementos, que denominamos ante-

riormente omo aleatoriedad y omo vemos se debe a que esta a.b.p. es de tipo probabilísti o,

es de ir, representa una distribu ión de probabilidad. Una medida de in ertidumbre para este

tipo de a.b.p. sería de forma natural la entropía de Shannon que podemos apli ar sin mayor

problema ambiando las p(xi) de su expresión por las m(xi) orrespondientes. En ambio, no

podemos ha er lo mismo on m2, pues se nos plantea una impre isión uando se nos indi a

que m2(x1, x2, x3) = 0.7, puesto que no sabemos nada sobre la probabilidad que tendría a-

da elemento en parti ular, aunque si ono emos el onjunto de probabilidades aso iada a esta

a.b.p. Por tanto, nos apare e otro tipo de in ertidumbre distinta a la primera y al que nosotros

llamaremos no-espe i idad. En este aso también es ierto que nos apare e el tipo primero de

in ertidumbre, puesto que tenemos un onjunto on distribu iones de probabilidad. Apli ando

el prin ipio de máxima entropía podríamos tomar omo medida de aleatoriedad el máximo de

la entropía de Shannon en este onjunto, omo veremos más adelante.

A abamos de justi ar, en términos intuitivos, los tipos de in ertidumbre que nos en ontramos

en la teoría de la eviden ia. Ahora vamos a expresar en términos matemáti os que debe ve-

ri ar una fun ión que sea apaz de medir alguna de las in ertidumbres anteriores. Debemos

estable er, pensando en teorías menos generales, qué propiedades debe veri ar.

Al igual que o urría en la teoría de la probabilidad, sólo será ne esario que verique un on-

junto redu ido de propiedades axiomáti as. Nosotros vamos a estable er aquí, qué propiedades

deben veri a nuestras medidas de in ertidumbre, ya sean de aleatoriedad, no-espe i idad o

global (la suma de los dos valores de los distintos tipos de in ertidumbre).

Sea B el onjunto de todas las a.b.p. sobre el onjunto nito X y sea ϕ una fun ión de

in ertidumbre sobre B

ϕ : B→ [0,∞),

debe veri ar las siguientes propiedades:

(i) ϕ es denida no negativa (por propia deni ión).

(ii) ϕ es monótona. Sean m1,m2 ∈ B tales que m1 ⊆ m2 en el sentido que vimos en el

apítulo 1, enton es

ϕ(m1) ≥ ϕ(m2)

(iii) Aditividad. Sean mX ,mY independientes enton es

ϕ(mX ×mY ) = ϕ(mX) + ϕ(mY )

on mX ∈ BX y mY ∈ BY , on la misma nota ión.

(iv) Subaditividad. Sean m ∈ BX×Y y mX ,mY sus marginales sobre BX y BY , enton es

ϕ(m) ≤ ϕ(mX) + ϕ(mY )

(v) ϕ es una fun ión ontinua en m

(vi) ϕ al anza su máximo para la ignoran ia total

En el aso que fuese una medida de in ertidumbre total o de aleatoriedad hay que añadir:

(vii) ϕ oin ide on la entropía de Shannon uando trabajamos on probabilidades (tales omo

la a.b.p. m1 del ejemplo 2.3)

Podemos ver en trabajos sobre el tema, Klir y Wierman [61, Lamata y Moral [65, Ramer

[83, Dubois y Prade [30, et ..., que las propiedades más importantes son las de monotonía,

aditividad y subaditividad, siendo esta última el es ollo más ompli ado de superar a la hora

de denir una fun ión de in ertidumbre.

2.3.2. Medidas de in ertidumbre

En este apartado vamos a exponer algunos de las medidas que se han estable ido para

uanti ar la aleatoriedad y no-espe i idad en una a.b.p. Nosotros separaremos el estudio de

estas fun iones dependiendo del tipo de in ertidumbre que mida. Finalmente hablaremos de las

medidas que surgen para uanti ar la in ertidumbre total donde de forma general se ombinan

una de ada tipo, en forma de suma.

Las deniremos, veremos que sentido tienen y estudiaremos sus propiedades matemáti as,

así omo su base intuitiva.

2.3.2.1. Medidas de no-espe i idad

Comenzaremos on este tipo de in ertidumbre porque originalmente fue la primera que surge

en términos de onjunto nitos, on la medida de Hartley.

Partiendo de la medida de Hartley, Higashi y Klir [42 denieron una medida de no-

espe i idad para la teoría de la posibilidad, que fue ampliada por Dubois y Prade para la

teoría de la eviden ia. Tiene la siguiente expresión

I(m) =∑

A⊆℘(ΩX)

m(A) log(|A|)

para las a.b.p. m sobre X nito.

Como medida en la teoría de la posibilidad, Klir y Mariano [56, demostraron que veri a un

onjunto de interesante propiedades axiomáti as. Su generaliza ión también las veri a, omo

podemos ver en Dubois y Prade [30, in luyendo las propiedades de monotonía, aditividad

y subaditividad. Además, Ramer [83, demuestra que veri a las propiedades de simetría y

rami a ión de una forma paralela a la entropía de Shannon.

Se puede omprobar fá ilmente que veri a la propiedad (vi) anterior y que vale 0 para

probabilidades.

Dubois y Prade [30, además, realizan un interesante estudio de las propiedades de las

medidas de informa ión en la teoría de la eviden ia y la teoría de la posibilidad. Para demostrar

las propiedades de I utilizan los siguiente lemas, que nosotros también usaremos más adelante:

Lema 2.1 Sean m1,m2 dos a.b.p. sobre los onjuntos nitos X e Y repe tivamente, y sea f

una fun ión tal que f(A×B) = f1(A) · f2(B) para ualquier par de onjuntos A,B de ℘(ΩX)

y ℘(ΩY ) respe tivamente. Enton es se veri a que

m1(A)m2(B) ln(f(A×B)) =∑

m1(A) ln(f1(A)) +∑

m2(B) ln(f2(B)).

Lema 2.2 Sea f una fun ión tal que si A ⊆ B se veri a que f(A) ≤ f(B), f : ℘(ΩX) →[0,∞). Enton es se veri a que si m′ ⊆ m tenemos que

A⊆℘(ΩX)

m(A)f(A) ≤∑

A⊆℘(ΩX)

m′(A)f(A)

siendo m,m′dos a.b.p. sobre el onjunto nito X.

Utilizando el lema 2.1 se demuestra de forma sen illa la monotonía de la fun ión I y

usando el lema 2.2 se demuestra la aditividad. En Dubois y Prade [30 podemos ver también

la demostra ión de la subaditividad de I.

Aunque esta medida es intuitiva y tiene todas las propiedades bási as de una medida de

in ertidumbre, no fue la primera que se denió. A ontinua ión veremos otras fun iones que

fueron propuestas, aunque ninguna onseguía veri ar todas las propiedades de la medida I.

Yager [109, dene la siguiente fun ión de no-espe i idad sobre una a.b.p. m:

Y (m) = 1−∑

A⊆℘(ΩX)

m(A)/|A|

Su diferen ia on respe to a 1 es lo que se ono e omo espe i idad:

Sp(m) =∑

A⊆℘(ΩX)

m(A)/|A|

Dubois y Prade [30, estudiaron esta medida y probaron las siguientes propiedades:

(i) Es monótona de re iente.

Si m ⊆ m′enton es Sp(m) ≥ Sp(m

′). La demostra ión se obtiene utilizando el lema 2.1

y tomando la fun ión f(A) = 1|A| .

Por tanto, Y (m) es monótona re iente.

(ii) Veri a una propiedad similar a la aditividad pero de forma multipli ativa:

Si mX y mY independientes, enton es

Sp(mX ×mY ) = Sp(mX) · Sp(mY )

(iii) Sp(m) ≤ mın(Sp(mX), Sp(mY ))

(iv) En general no satisfa e la propiedad de la supermultipli abilidad

Sp(m) ≥ Sp(mX) · Sp(mY )

(v) Vale 1 para probabilidades (Y vale 0)

Yager, dene a Y omo un "indi ador del grado de dispersión de la reen ia".

Lamata y Moral [65 estable en la siguiente medida de no-espe i idad

W (m) = log

A⊆℘(ΩX)

m(A)|A|

que intenta medir el promedio de la ardinalidad de los elementos fo ales. Como sabemos la

fun ión logarítmi a es re iente, es mayor para las a.b.p. que den más masa a los elementos

on ardinalidad mayor, por lo que pare e una buena medida de no-espe i idad.

Esta medida tiene di ultades para veri ar las propiedades, puesto que aunque es logarít-

mi a, no es un promedio de logaritmos, omo I.

Obtienen una expresión equivalente para W omo

W (m) = log

y denominan a W e I omo no-espe i idad inferior e inferior de m, puesto que por la on-

vexidad de la fun ión logaritmo, tenemos que

W (m) = log∑

A⊆℘(ΩX)

m(A)|A| ≥∑

A⊆℘(ΩX)

m(A) log(|A|) = I(m).

Sobre esta fun ión, W , que vale 0 para probabilidades y que al anza su máximo para la

ignoran ia total, se pueden demostrar también las siguientes propiedades:

(i) Es monótona

Si m1,m2 a.b.p. sobre X nito tales que m1 ⊆ m2 enton es W (m1) ≥W (m2)

Demostra ión:

W (m1) = log

A⊆℘(ΩX)

m1(A)|A|

A⊆℘(ΩX)

B|B⊂A

al ser la fun ión logarítmi a re iente

≥ log

A⊆℘(ΩX)

B|B⊂A

tA(B)|B|

B⊆℘(ΩX )

A|A⊃B

B⊆℘(ΩX)

A|A⊃B

(tA(B)) |B|

por la deni ión de in lusión entre eviden ias

B⊆℘(ΩX )

m2(B)|B|

= W (m2)

(ii) Es aditiva

Sea m a.b.p. sobre X × Y , X,Y nitos, tales que existe independen ia de masas entre

las a.b.p. marginales (m = mX ×mY ) enton es W (m) = W (mX) + W (mY )

Demostra ión:

W (m) = log

A⊆℘(ΩX×ΩY )

m(A)|A|

AX×AY ⊆℘(ΩX×ΩY )

m(AX ×AY )|AX ×AY |

AX⊆℘(ΩX),AY ⊆℘(ΩY )

m(AX ×AY )|AX ×AY |

AX⊆℘(ΩX),AY ⊆℘(ΩY )

m(AX)m(AY )|AX ||AY |

AX⊆℘(ΩX)

m(AX)|AX |

AY ⊆℘(ΩY )

m(AY )|AY |

== log

AX⊆℘(ΩX)

m(AX)|AX |

AY ⊆℘(ΩY )

m(AY )|AY |

= W (mX) + W (mY )

(iii) No es subaditiva

Sea m a.b.p. sobre X × Y , on X,Y nitos. No se veri a, en general, que

W (m) ≤W (mX) + W (mY ).

Consideremos el siguiente ontraejemplo:

Ejemplo 2.4 Sean los onjunto nitos X = x1, x2, x3 e Y = y1, y2, y3 y sea m la

siguiente a.b.p. sobre X × Y

m((x1, y1); (x1, y2); (x1, y3); (x2, y1); (x2, y2); (x2, y3)) =1

2, m((x3, y1); (x3, y3)) =

Ahora, las marginales serían

mX(x1, x2) =1

2, mX(x3) =

mY (y1, y2, y3) =1

2, mY (y1, y2) =

on lo que tenemos

W (m) = log(61

2) = log

2= log(4),

W (mX) = log(21

2) = log

2= log(1.5),

W (mY ) = log(31

2) = log

2= log(2.5).

log(1.5) + log(2.5) = log(3.75) < log(4),

W (m) > W (mX) + W (mY ).

(iv) No es superaditiva

Sea m a.b.p. sobre X × Y , X,Y nitos. No se veri a, en general, que

W (m) ≥W (mX) + W (mY ).

Consideremos el siguiente ontraejemplo:

Ejemplo 2.5 Sean los mismos onjuntos nitos X,Y del ejemplo anterior. Considere-

mos ahora m′a.b.p. sobre X × Y siguiente:

m′((x1, y1); (x1, y2); (x2, y3)) =1

2, m′((x2, y1); (x2, y2)) =

quedando las marginales

m′X(x1, x2) =

2, m′

X(x2) =1

m′Y (y1, y2, y3) =

2, m′

Y (y1, y2) =1

on lo que tenemos

W (m′) = log(31

2) = log

2= log(2.5),

W (m′X) = log(2

2) = log

2= log(1.5),

W (m′Y ) = log(3

2) = log

2= log(2.5).

log(1.5) + log(2.5) = log(3.75) > log(2.5),

W (m) < W (mX) + W (mY ).

2.3.2.2. Medidas de aleatoriedad

La fun ión mas apropiada para medir la no-espe i idad en una a.b.p., I, no es apaz de

distinguir entre probabilidades, para todas ellas su valor es 0. Ahora nos planteamos el medir

la in ertidumbre de un tipo dire tamente rela ionado on la entropía de Shannon, por lo que

a ve es le llamaremos "entrópi o", que se presenta en teoría de la probabilidad y por tanto en

la teoría de la eviden ia. De he ho, las primeras solu iones que surgen tratan de generalizar

dire tamente la deni ión de la entropía de Shannon, omo en Höhle [43, Yager [109.

Höhle [43 dene lo que denomina medida de onfusión en la teoría de la eviden ia:

C(m) = −∑

A⊆℘(ΩX)

m(A) log(Bel(A)),

pretendiendo representar el oni to que apare e entre los elementos A y B on masas positivas,

siendo B * A.

Yager [109 también estable e lo que denomina una medida de disonan ia en la teoría de la

eviden ia:

E(m) = −∑

A⊆℘(ΩX)

m(A) log(Pl(A)),

pretendiendo uanti ar el oni to que existe en aquellas situa iones en las que existen masas

positivas en onjuntos on interse iones va ías.

Estas dos medidas, C y E, oin iden exa tamente on la entropía de Shannon uando traba-

jamos on probabilidades. Cada una de ellas mide un tipo de oni to en una a.b.p. En Dubois

y Prade [30, podemos ver que tienen interesantes propiedades:

- E es fun ión monótona de m. Se puede demostrar utilizando el lema 2.2. Pero C no lo

- C y E son dos fun iones aditivas. Su demostra ión se basa en el lema 2.1

- Utilizando la nota ión habitual, se veri a que:

C(m) ≥ max(C(mX), C(mY ))

E(m) ≥ max(E(mX), E(mY ))

- No son subaditivas

La di ultad en ontrada en la veri a ión de la subaditividad ha sido el talón de Aquiles

para la mayoría de las fun iones que se han denido en la última dé ada.

Otros autores intentaron de igual manera estable er fun iones de aleatoriedad teniendo en

uenta algún tipo de oni to en ontrado en una a.b.p. A nosotros nos interesa aquella que mi-

da la aleatoriedad en sentido general, omo ya expusimos, y que verique todas las propiedades

de la entropía de Shannon.

En los años siguientes surgieron varias medidas interesantes de las que tenemos que desta ar

la de Klir y Ramer [59:

D(m) = −∑

A⊆℘(ΩX)

m(A) log∑

m(B)|A ∩B||B|

pretendiendo arreglar las de ien ias on eptuales que se en ontraron en las fun iones C y E.

De he ho se veri a que

E(m) ≤ D(m) ≤ C(m).

Esta medida tiene un úni o máximo, que se al anza para la distribu ión uniforme, lo que

no o urría para las anteriores C y E.

Según Klir y Ramer [59, la fun ión D trata la intera ión entre los elementos fo ales de me-

jor manera que lo ha ían las anteriores, puesto que la fun ión E no es totalmente satisfa toria,

al uanti ar sólo el oni to entre elementos fo ales disjuntos y C no tiene omportamiento

orre to puesto que no re oge de ninguna forma el grado de oni to entre los sub onjuntos de

un onjunto.

D expresa el promedio de los oni tos individuales de la eviden ia on respe to a ada

onjunto parti ular A onsiderado a través del grado de viola ión la in lusión B ⊆ A.

Sin embargo, esta fun ión D no fun iona orre tamente, puesto que si llamamos

Con(A) =∑

B⊆℘(ΩX)

m(B)|B −A||B| ,

enton es ahora D se puede expresar omo:

D(m) =∑

A⊆℘(ΩX)

m(A) log [1− Con(A)] ,

expresando on Con(A) el oni to sobre ada elemento A. Pare e natural pensar que uando

existe oni to entre A y C debe haberlo entre C y A, pero omo podemos ver en el siguiente

ejemplo, es posible que esto no o urra:

Ejemplo 2.6 Sea m a.b.p. sobre X = 1, 2, 3, 4 y sea A = 1, 2 y C = 2, 3, 4 on

m(A) = 0.2,m(C) = 0.8,

ahora tenemos que

Con(A) = 0.53, Con(C) = 0.1

Para solu ionar este problema, Klir y Parviz [58 modi an la fun ión D anterior y estable-

en lo que denominan "disputa"(strife fue el término que utilizaron on retamente en inglés)

de la siguiente manera:

S(m) = −∑

A⊆℘(ΩX)

m(A) log∑

m(B)|A ∩B||A| ,

solu ionando el problema anterior.

Estas fun iones, D y S, son monótonas, aditivas, oin iden on la entropía de Shannon para

probabilidades y tienen otras interesantes propiedades, Klir y Ramer [59, Klir y Parviz [58 y

Vejnarová y Klir [94, pero no umplen tampo o la propiedad de la subaditividad (Vejnarová y

Klir [94).

Si pensamos en el motivo de nuestra búsqueda y en el modelo en el que estamos, es fá il

darse uenta que si una a.b.p. no es ni más ni menos que un onjunto onvexo de distribu iones

de probabilidad, apli ando el prin ipio de máxima in ertidumbre on la fun ión que mejor mide

la in ertidumbre de tipo entrópi o entre probabilidades, obtendríamos la siguiente fun ión:

G(m) = max

[−∑

px log2(px)

donde el máximo se al ula sobre todas las distribu iones de probabilidad, (px), que veri an:

Bel(A) ≤∑

px ≤ 1−Bel(Ac),∀A ⊆ ℘(ΩX),

es de ir, el máximo de la entropía de Shannon en el onjunto de todas las distribu iones de

probabilidad que representa una a.b.p. sobre un onjunto nito X.

Esta medida, que está, omo a abamos de ver, totalmente bien justi ada, veri a todas las

propiedades que estamos onsiderando, in luida la oni tiva propiedad de la subaditividad,

omo podemos ver en Harmane y Klir [39. Sus propiedades se pueden enumerar de la siguiente

forma:

(G1) G oin ide on la entropía de Shannon para probabilidades.

(G2) G oin ide on la medida de Hartley para a.b.p. on entradas en un elemento A

(m(A) > 0 y m(B) = 0,∀B 6= A).

(G3) G es monótona.

(G4) G es aditiva.

(G5) G es subaditiva.

Las demostra iones de las propiedades de G, que se ha en en Harmane y Klir [39, son

bastante interesantes y las usaremos omo herramientas en los siguientes subapartados.

Esta fun ión es la solu ión a un problema de optimiza ión no lineal, por lo que fue uestio-

nado el sentido de su utilidad. Posteriormente han surgido varios algoritmos que la al ulan de

forma sen illa, desta ando prin ipalmente el de Mayerowitz y otros [72. Nosotros desarrolla-

remos también un algoritmo muy sen illo para al ularla en el aso de onjuntos de intervalos

de probabilidades, en el siguiente apítulo.

El algoritmo de Mayerowith y otros es el siguiente:

Algoritmo 2.1 Cál ulo de G para una a.b.p. m sobre un onjunto nito X

Paso 1 En ontrar un onjunto A ⊆ ℘(ΩX) tal que

Bel(A)|A| sea maximal. Si hay más de uno

elegir el de mayor ardinal.

Paso 2 Para ada x ∈ A introdu ir px = Bel(A)|A|

Paso 3 Para ada B ⊆ ℘(ΩX−A) Cambiar Bel(B)←− Bel(B ∪A)−Bel(A)

Paso 4 Cambiar X ←− X −A

Paso 5 Si X 6= ∅ y Bel(X) 6= 0 volver al Paso 1

Paso 6 Si Bel(X) = 0 y X 6= ∅ ha er px = 0,∀x ∈ X

Paso 7 Cal ular G(m) = −∑x∈X px log2(px)

La demostra ión de que el algoritmo fun iona la realizan Harmane y Klir [40. Demuestran

que al anza su objetivo en un número nito de pasos, apoyándose en resultados de Maeda et

al. [70 y Dempster [26.

Para terminar este apartado, podemos ver en la tabla 2.5 un esquema de las fun iones de

aleatoriedad y no espe i idad estudiadas, en la que entendemos por Cm el onjunto onvexo

que determina una a.b.p. m. Existen otras medidas no estudiadas aquí, pero éstas son las más

importantes desde nuestro punto de vista.

2.3.2.3. Medidas de in ertidumbre total

En los apartados anteriores vimos uales son las medida que mejor uanti an los tipos

de in ertidumbre en ontradas en la teoría de la eviden ia. El problema que nos planteamos

ini ialmente en este apítulo segundo fue el de generalizar la entropía de Shannon, omo medida

de in ertidumbre total en la teoría de la probabilidad, para la teoría de la eviden ia. Por tanto,

paralelamente al estudio de las medidas que uanti an un tipo parti ular de in ertidumbre,

surgen medidas que traten de uanti ar en un sólo valor toda la in ertidumbre. Los pioneros

fueron Lamata y Moral [65, planteando la primera medida de in ertidumbre total en la teoría

de la eviden ia:

UT1(m) = E(m) + I(m)

on el problema que hemos arrastrado en todo el apítulo sobre la veri a ión de la propiedad

de la subaditividad, puesto que, omo hemos visto, la fun ión E no la satisfa e. El resto de

las propiedades se pueden demostrar fá ilmente al ser UT1 una fun ión resultado de la suma

de dos promedios de logaritmos. Esta forma de globaliza ión fue la que posteriormente se ha

Medidas de No-espe i idad

Medida Autor

Y (m) = 1−∑A⊆℘(ΩX)m(A)/|A| Yager[83

I(m) =∑

A⊆℘(ΩX) m(A)log(|A|) Dubois y Prade[84

W (m) = log(∑

A⊆℘(ΩX) m(A)|A|) Lamata y Moral[87

Medidas de Aleatoriedad

Medida Autor

C(m) = −∑A⊆℘(ΩX) m(A) log(Bel(A)) Höhle[81

E(m) = −∑A⊆℘(ΩX) m(A) log(Pl(A)) Yager[83

D(m) = −∑A⊆℘(ΩX) m(A) log(∑

B⊆A m(B) |A∩B||B|

)Klir y Ramer[90

S(m) = −∑A⊆℘(ΩX) m(A) log(∑

B⊆A m(B) |A∩B||A|

)Klir y Parviz[92

G(m) = maxp∈Cm H(p) Harmane y Klir[94

Tabla 2.5: Medidas de incertidumbre en la teoría de la evidencia

utilizado para dar una medida total.

Posteriormente surgieron otras propuestas de las que vamos a desta ar algunas.

Klir y Ramer [59 proponen la siguiente fun ión:

UT2(m) = D(m) + I(m).

Pal, Bezdek y Hemasinha[93 proponen:

UT3(m) = N(m) + I(m)

N(m) = −∑

A⊆℘(ΩX)

m(A) log(m(A))

que es una fun ión similar a la que introdu e Nguyen [76 para onjuntos aleatorios. Esta

última fun ión es análoga a la fun ión de Yager, E, y a la medida de oi to de Klir y Ramer,

D, aunque siempre asigne valores mayores que estas medidas. Sus autores la denen para

medir lo que denominan la in onsisten ia y ausen ia de onanza aso iada a una a.b.p. Pero,

también pade e el problema de la no veri a ión de la subaditividad.

Maeda e I hihashi [69 proponen una medida de in ertidumbre global que veri a todas las

propiedades bus adas y omo podemos imaginar, por lo visto en todo este apítulo, se bass en las

fun iones G(m) e I(m). Debido a la importan ia de ésta, que hemos analizado ampliamente,

vamos a dedi arle un apartado ompleto.

2.3.3. Medida de in ertidumbre total de Maeda e I hihashi

Maeda e I hihashi [69 proponen una fun ión de in ertidumbre que uanti a la aleatoriedad

y no-espe i idad de una asigna ión bási a de probabilidad sobre un onjunto nito X. La

fun ión que mide la in ertidumbre total es la siguiente

UT (m) = I(m) + G(m),

donde I(m) es la fun ión de no-espe i idad de Dubois y Prade's y G(m) es la fun ión del

máximo de la entropía sobre el onjunto onvexo que determina m, Harmane y Klir [39.

De forma sen illa podemos ver que UT (m) satisfa e las siguientes propiedades:

(a) Coin ide on la entropía de Shannon para probabilidades.

(b) Al anza su máximo para la ignora ia total.

Además, omo se puede ver en Dubois y Prade [30 o en Lamata y Moral [65:

( ) Es monótona on respe to a la in lusión de a.b.p.

(d) Satisfa e la propiedad de la aditividad.

(e) Satisfa e la propiedad de la subaditividad.

Además, ya vimos que G(m) satisfa e las propiedades anteriores y que in luso sola se puede

onsiderar omo una medida de in ertidumbre total, on el mismo rango que la entropía de

Shannon (Harmane y Klir [39).

Sin embargo, hay algunos aspe tos de UT que pare en dar problemas de fun ionamiento.

Vamos a ver, antes de analizarlos, un ejemplo expli ativo

Ejemplo 2.7 Sean las siguientes a.b.p. sobre X = x1, x2, x3 :

m123 = 0.4

m1 = 0.2

m2 = 0.2

m3 = 0.2

y m′

m′123 = 0.2

m′23 = (m123−m′

123)ln(3)ln(2) ≃ 0.317

m′1 = m′

2 = m′3 =

(1−m′

123−m′

23)3 ≃ 0.161

Donde expresamos, para simpli ar, mi = m (xi) , mij = m (xi, xj) , i, j ∈ 1, 2, 3 ym123 = m (x1, x2, x3). Análogamente para m′

Si observamos di has fun iones, de forma intuitiva, m debería representar más in ertidum-

bre que m′, puesto que m es ompletamente simétri a y m′

apunta laramente ha ia el onjunto

x2, x3 :

Pl(x1, x2) = Pl(x1, x3) = Pl(x2, x3) = 0.8,

P l(x1) = Pl(x2) = Pl(x3) = 0.6,

Bel(x1, x2) = Bel(x1, x3) = Bel(x2, x3) = 0.4,

Bel(x1) = Bel(x2) = Bel(x3) = 0.2,

Pl′(x1, x2) = Pl′(x1, x3) = Pl′(x2, x3) = 0.839,

0.361 = Pl′(x1) << Pl′(x2) = Pl′(x3) = 0.839,

0.322 = Bel′(x1, x2) = Bel′(x1, x3) << Bel′(x2, x3) = 0.639,

Bel′(x1) = Bel′(x2) = Bel′(x3) = 0.161,

Grá amente, si ignoramos los puntos en omún de m y m′, para ada punto de m′

represente una distribu ión de probabilidad, existe un punto de m on mayor entropía utili-

zando la medida de Shannon. Por otro lado, el ontrario no es ierto, existen distribu iones

de probabilidad de m on más entropía que ualquiera de las de m′. Por lo que UT (m) debería

ser mayor que UT (m′).

Los dos onjuntos onvexos aso iados a m y a m′se pueden ver en la guras 2.2 y 2.3.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 2.2: Conjunto convexo asociado a m del ejemplo 2.7

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 2.3: Conjunto convexo asociado a m′ del ejemplo 2.7

Pero las dos, m′y m, tienen el mismo valor de noespe i iad I(m) = I(m′) = 0.439. Además

G(m) = G(m′) = ln(3), porque pU ∈ Cm y pU ∈ Cm′, donde pU es la distribu ión uniforme

sobre X. Por ello, tanto m omo m′tienen la misma in ertidumbre según la medida de Maeda

e I hihashi.

2.3.4. El fa tor de Kulba k

Vamos a introdu ir un fa tor on interesantes propiedades, Abellán y Moral [1, que puede

utilizarse para mejorar el fun ionamiento de la medida de Maeda e I hihashi. Previamente,

ne esitamos dejar laro lo que se entiende por onjunto frontera:

Deni ión 2.2 Sea A un sub onjunto del espa io ve torial IRn. Denotaremos omo Fr(A)

al onjunto frontera de A:

Fr(A) =a ∈ IRn | B(a, ∂) ∩A 6= ∅ ∧ B(a, ∂) ∩A 6= ∅, ∀∂ > 0, ∂ ∈ IR

donde B(a, ∂) = b ∈ IRn | d(a, b) ≤ ∂ y d(a, b) es una fun ión distan ia sobre IRn

Partiremos de la entropía ruzada, vista anteriormente, entre dos distribu iones de proba-

bilidad introdu ida por Kullba k [64

K(p, q) =∑

donde p y q son dos distribu iones de probabilidad sobre un onjunto nito X.

Nosotros, usaremos esta fun ión de la siguiente forma. Sea

R(m) = Min

p∈F r(Cm)

K(p, q) ;

donde q es tal que G(m) = − ∑x∈X

q x ln(q x), es de ir, la distribu ión de probabilidad on

mayor valor de entropía dentro de Cm. Siendo Cm el onvexo de probabilidades aso iado a la

asigna ión bási a de probabilidad m. Llamaremos a R(m) omo el fa tor Kullba k de m.

Utilizamos di ha fun ión en el ejemplo 2.7, on q = pU para m y m′, omo podemos ver

en la gura 2.2 y en la gura 2.3, tenemos que R(m) > R(m′). Se puede probar que el valor

p∈F r(Cm)

K(p, q) se al anza en los puntos de mínima distan ia a los onjuntos de puntos

frontera de Cm y Cm′, respe tivamente on R(m) = 0.0437 y R(m′) = 0.0017.

Por ello, proponemos denir una nueva fun ión de in ertidumbre total añadiendo di ho

fa tor a la que teníamos de Maeda e I hihashi:

UTR(m) = I(m) + G(m) + R(m).

En el ejemplo 2.7, m obtiene mayor in ertidumbre que m′, omo abía esperar.

2.3.4.1. Propiedades

Con la nota ión anterior, tenemos que se veri an las siguientes propiedades:

Lema 2.3 Si pU ∈ Fr(Cm) enton es R(m) = 0.

Demostra ión:

Asumiremos que 0 ln(0) = 0.

Puesto que Cm es un onjunto errado pU ∈ Cm. Enton es R(m) = K(pU , pU ) = 0

Lema 2.4 Si pU /∈ Cm enton es R(m) = 0.

Demostra ión:

Sea Max

p∈Cm

H(p) = H(p′). Sólo es ne esario probar que p′ ∈ Fr(Cm).

Supongamos que p′ /∈ Fr(Cm). Enton es, eligiendo α ∈ R, α ∈ (0, 1) tal que

p′′ = α · pU + (1− α) · p′

y p′′ ∈ Cm.

Por la ontinuidad de H, H(p′′) > H(p′). De aquí p′ ∈ Fr(Cm) .

Proposi ión 2.1 R(m) está bien denida.

Demostra ión:

Si pU /∈ Cm enton es por el lema 2.4 R(m) = 0.

Si pU ∈ Cm enton es R(m) = ln(n)−H(p∗), para ada p∗ ∈ Fr(Cm).

Proposi ión 2.2 R(m) ≥ 0, ∀m asigna ión bási a de probabilidades sobre el onjunto nito

Demostra ión:

Sea R(m) =∑

px ln(

), para una distribu ión de probabilidades p ∈ Cm. Ahora,

usando la desigualdad de Gibbs, tenemos que

−∑

px ln(px) ≤ −∑

px ln(q x)

y R(m) ≥ 0.

Proposi ión 2.3 Si m es una distribu ión de probabilidades se veri a que R(m) = 0.

Proposi ión 2.4 R al anza su máximo valor para la total ignoran ia. Enton es,

R(m) = ln(n)− ln(n− 1)

Demostra ión:

Usando la nota ión habitual, sea m una a.b.p. que representa la total ignoran ia en X.

Enton es mX = 1.

Sabemos que Max

p∈F r(Cm)

H(p) = ln(n− 1), por lo que

R(m) = Min

p∈F r(Cm)

K(p, pU) = ln(n)− Max

p∈F r(Cm)

H(p) = ln(n)− ln(n − 1).

Ahora, ∀m′a.b.p. sobre X, R(m′) ≤ R(m).

Si pU /∈ Cm′por el lema 2.4, R(m′) = 0 ≤ R(m).

Si pU ∈ Cm′, onsideremos p′ ∈ Fr(Cm′) tal que p′ = αpU +(1−α)pUn−1 son α ∈ [0, 1] ,

donde pUn−1 es la distribu ión de probabilidad uniforme sobre el onjunto X ′ ⊂ X siendo

|X ′| = n− 1.

Enton es, por la ontinuidad de H

ln(n) = H(pU ) ≥ H(p′) ≥ H(pUn−1) = ln(n− 1)

Como R(m′) = ln(n)−H(p∗), para algún p∗ ∈ Fr(Cm′) y

R(m′) = ln(n)−H(p∗) ≤ ln(n)−H(p′) ≤ ln(n)− ln(n− 1) = R(m)

Proposi ión 2.5 R es una fun ión monótona en m.

Demostra ión:

Sean m y m′dos a.b.p. tales que m′ ⊆ m en el sentido que daba la deni ión 1. Enton es

para p ∈ Cm, distribu ión de probabilidades, p ∈ Cm′ .

Casos:

A pU /∈ Cm′ ⇒ pU /∈ Cm, por el lema 2.4: R(m) = R(m′) = 0.

B pU ∈ Cm′ :

B.1 pU /∈ Cm, por el lema 2.4: R(m) = 0 ≤ R(m′).

B.2 pU ∈ Cm. Sea p∗ ∈ Cm′tal que

R(m′) =∑

p∗x ln(p∗x1/n

) = ln(n)−H(p∗)

Puesto que Cm ⊆ Cm′existe α ∈ R, α ∈ [0, 1] , tal que p′ = α · p∗ + (1−α) · pU ,

y p′ ∈ Fr(Cm). Enton es por la ontinuidad de H, H(p∗) ≤ H(p′) y

R(m) = Min

p∈Fr(Cm)

[ln(n)−H(p)] ≤ ln(n)−H(p′) ≤ ln(n)−H(p∗) = R(m′)

Lema 2.5 Sea m una a.b.p. sobre X × Y on proye iones mX and mY . Sea pUXla distri-

bu ión de probabilidad uniforme sobre X y pUYla distribu ión de probabilidad uniforme sobre

Y , enton es

pU ∈ Cm ⇒

pUX∈ CmX

pUY∈ CmY

Demostra ión:

Sea |X| = nX , |Y | = nY y n = nX · nY . Enton es pUX=(

, ..., 1nX

)y pUY

, ..., 1nY

Sabemos que si una distribu ión de probabilidad p sobre X tal que p(x) =∑y∈Y

pU (x, y)

o urre que p ∈ CmX. Ahora,

p(x) =∑

pU (x, y) = nY ·1

nX= pUX

(x), ∀x ∈ X.

Análogamente para mY .

Lema 2.6 Sea m una a.b.p. sobre X × Y on proye iones mX y mY , tales que hay inde-

penden ia fuerte bajo m. Sea pUXla distribu ión de probabilidad uniforme sobre X y pUY

misma sobre Y , enton es pU ∈ C

Demostra ión:

Usando la hipótesis de independen ia, sea pxy ≡ pUX· pUY

∈ Cm. Pero

pxy(x, y) = pUX(x) · pUY

(y) =1

nX· 1

n= pU (x, y) , ∀(x, y) ∈ X × Y

Lema 2.7 Sea m una a.b.p. sobre X × Y on proye iones mX y mY , tal que hay indepen-

den ia fuerte bajo m. Sea p ∈ Fr(CmX) y q ∈ Fr(CmY ). Enton es pq ∈ Fr(Cm).

Demostra ión:

Tomemos la distan ia sobre IRn : d(u, v) = Max

i∈1,..,n|ui − vi| ; u, v ∈ IRn.

Por hipótesis:

∀∂1 > 0 ∃p′ ∈ IRnX tal que Max

|px − p′x| ≤ ∂1 y p′ ∈ CmX

∃p′′ ∈ IRnX tal que Max

∣∣∣px − p′′

∣∣∣ ≤ ∂1 y p′′ ∈ CmX

∀∂2 > 0 ∃q′ ∈ IRnY tal que Max

∣∣qy − q′y∣∣ ≤ ∂2 y q′ ∈ CmY

∃q′′ ∈ IRnY tal que Max

∣∣∣qy − q′′

∣∣∣ ≤ ∂2 y q′′ ∈ CmY

Ahora, ∀∂ > 0 tomamos ∂1 = ∂2 = ∂/2 y puesto que p′q′ ∈ Cm, usando la demostra ión

de G4 que realizan Harmane y Klir [39. Como

pq − p′q′ = q(p− p′)− p′(q′ − q),

enton es

x ∈ X

y ∈ Y

∣∣pxqy − p′xq′y∣∣ = Max

x ∈ X

y ∈ Y

∣∣qy(px − p′x)− p′x(q′y − qy)

∣∣ ≤

≤ Max

x ∈ X

y ∈ Y

∣∣(px − p′x)∣∣+∣∣p′x∣∣ ∣∣(q′y − qy)

∣∣] ≤

≤ Max

x ∈ X

y ∈ Y

[|(px − p′x)|+

∣∣(q′y − qy)∣∣] =

|(px − p′x)|+ Max

∣∣(q′y − qy)∣∣ ≤

≤ ∂

2≤ ∂

Análogamente se demuestra para p′′

y p′′

, puesto que p′′

q′′ ∈ CmX

× CmY⊆ Cm.

Proposi ión 2.6 R es subaditiva.

Demostra ión:

Con la anterior nota ión, sea m una a.b.p. sobre X × Y , enton es

R(m) ≤ RX(mX) + RY (mY ).

Casos:

A Si pU /∈ Cm, enton es por el lema 2.4

0 = R(m) ≤ RX(mX) + RY (mY ).

B Si pU ∈ Cm. Sea

R(m) =∑

pxy ln

); p ∈ Cm,

usando el lema 2.5

RX(mX) =∑

p1x ln

); p1 ∈ Fr(CmX

RY (mY ) =∑

p2y ln

); p2 ∈ Fr(CmY

Tomamos mX×mY a.b.p. sobre X×Y tal que mX×mY (A×B) = mX(A) ·mY (B), on

A ⊆ X y B ⊆ Y . Enton es hay independen ia de masas bajo mX ×mY y CmX×CmY

⊆CmX×mY

(por la demostra ión de G5 en Harmane y Klir [39).

Por el lema 2.7, p1p2 ∈ Fr(CmX×mY).

Puesto que CmX×CmY

⊆ CmX×mY, un onjunto onvexo, enton es el as o onvexo de

(CmX×CmY

) está también ontenido en CmX×mY. Por esto, Cm ⊆ CH(CmX

×CmY) ⊆

CmX×mY.

Sea q una distribu ión de probabilidades tal que q ∈ Fr(Cm) y q = αpU + (1− α) p1p2,

on α ∈ [0, 1] .

Ahora,

R(m) = Min

p∈Fr(Cm)

[ln(n)−H(p)] = ln(n)− Max

p∈Fr(Cm)

H(p) ≤ ln(n)−H(q).

Por la ontinuidad de H, H(pU ) ≥H(q) ≥ H( p1 p2) = H( p1) + H( p2) , y

R(m) ≤ ln(n)−H(q) ≤ ln(nX) + ln(nY )− (H( p1) + H( p2)) = RX(mX) + RY (mY )

La fun ión R no satisfa e, en general, la propiedad de la aditividad tal omo podemos ver

en el siguiente ontraejemplo.

Ejemplo 2.8 Elegimos mX una a.b.p. sobre X tal que pUXno pertene e al onvexo aso iado

a mX y mY sobre Y tal que pUYno pertene e al onvexo aso iado a mY pero pUY

/∈ Fr(CmY).

Resulta que RX(mX) = 0 y RY (mY ) > 0.

Sea mY la a.b.p. m del ejemplo 2.7, tenemos que RY (mY ) = 0.0437.

Sea mX una a.b.p. sobre X = a, b, c tal que mX(a) = 1 y 0 en otro aso. Obviamente

pUX(13 , 1

3 , 13) /∈ mX y RX(mX) = 0.

Bel((a, 1)) = 0.2 >1

siendo Bel la fun ión de reen ia aso iada a mX ×mY .

Lo que onlleva que pU(19 , 1

9 , ..., 19) /∈ Cm porque si pU ∈ Cm, por el lema 2.5, pUX

∈ CmX.

Ahora, usando el lema 2.4 R(m) = 0 y

R(m) < RX(mX) + RY (mY ).

2.4. Conclusiones 83

El omportamiento de R(m) depende de que m esté o no en el onjunto SU = m | pU ∈ Cm,es de ir, de que la distribu ión uniforme esté en Cm. Si m /∈ SU , enton es R(m) = 0 y

UTR(m) = UT (m), es de ir, oin ide on la fun ión de Maeda e I hihashi. En este aso

pensamos que esta medida fun iona orre tamente. R(m) añade un valor positivo a UT (m)

uando m ∈ SU . En este aso, para la misma espe i idad, R(m) tiene en uenta si la distri-

bu ión uniforme está realmente en el entro de Cm o muy er a de la frontera, tradu iéndose

omo un tipo de aleatoriedad global para estos onjuntos. En el primer aso R(m) es mayor

que en el segundo. La in ertidumbre es mayor uando todas las distribu iones de probabilidad

de la frontera están igual de alejadas de la uniforme. UTR(m) tiene en uenta este fa tor,

mientras se pierde en UT (m).

2.4. Con lusiones

Hemos he ho un estudio sobre medidas de in ertidumbre en la teoría de la probabilidad y

en la teoría de la eviden ia, partiendo de su origen en la teoría lási a de la informa ión para

omprender bien los requerimientos que se le deben ha er a una medida de tal n. Estudiamos

las propiedades de la medida de Hartley y de la medida de Shannon, onsiderando a esta última

omo la más importante dentro de la lási a teoría de la probabilidad ya que veri a una serie

de propiedades muy interesantes, tales omo: expansibilidad, simetría, ontinuidad, máximo,

subaditividad, aditividad, monotonía, rami a ión y normaliza ión. También vimos que no es

ne esario el umplimiento de todas esas propiedades para onsiderarla omo ara terizada, sino

que, se puede onsiderar sólo un sub onjunto de ellas.

De a uerdo on la rela ión existente entre informa ión e in ertidumbre se han enun iado

los prin ipios de in ertidumbre, omo prin ipios a tener en uenta a la hora de analizar ual-

quier sistema que derive falta de informa ión y sobre el que tenemos que apli ar teorías que

representen a ésta para, posteriormente, medir la in ertidumbre que onllevan. Son prin ipios

basados prin ipalmente en la entropía de Shannon pero que se amplían de forma lógi a a es-

tudios donde involu remos teorías más generales a la teoría de la probabilidad. Teniendo en

uenta el prin ipio de in ertidumbre invariante realizamos estudios para en ontrar medidas de

in ertidumbre apa es de generalizar las planteadas en la teoría de la eviden ia.

Hemos visto que en la teoría de la eviden ia apare en más tipos de in ertidumbre que en

la teoría de la probabilidad, por ello, el estudio de la medi ión de ésta debe ser ampliado.

Hemos expuesto las medidas que mejor miden ada uno de los tipos en ontrados: entropía

y no-espe i idad. Se han estudiado las medidas más importantes, en uanto a su aspe to

lógi o y matemáti o, es de ir, a su fun ionamiento intuitivamente orre to y umplimiento

de propiedades esen iales. Después de analizar las más importantes se llega a la on lusión

que las mejor estable idas para medir ada uno de los tipos de in ertidumbre son el máximo

de la entropía (para la entropía) y la amplia ión de la medida de Hartley en la teoría de la

eviden ia (para la no-espe i idad). Juntas, de forma aditiva, forman una buena medida de

in ertidumbre total en esta teoría. La forma de obtener la primera es sen illa debido a su

deni ión. La segunda tiene en prin ipio peor apli a ión por el ál ulo que representa, pero

hemos expuesto el algoritmo de Mayerowitz et al. que también la obtiene de forma sen illa.

Fueron Maeda e I hihashi los autores que exponen una medida de in ertidumbre total toman-

do las mejores medidas para ada tipo de in ertidumbre en la teoría de la eviden ia. Nosotros

hemos estudiado más a fondo su omportamiento intuitivo, pues el matemáti o onsideramos

que es orre to. Hemos llegado a en ontrar algunos problemas en su apli a ión por lo que

hemos expuesto un fa tor de orre ión. Esta amplia ión que proponemos de la fun ión de

Maeda e I hihashi por medio de la fun ión R, ha e que la fun ión de total in ertidumbre nal,

UTR, satisfaga la tres indispensables propiedades dentro de la estru tura de las fun iones de

reen ia, Maeda e I hihashi [69:

-Se redu e a la entropía de Shannon uando tenemos una distribu ión de probabilidades,

R(p) = 0,

I(p) = 0,

G(p) = H(p).

-Es máxima para la total ignoran ia, representada por una a.b.p. m tal que m(X) = 1, y

m(A) = 0,∀A ⊂ X

UTR(m) = 3 ln(n)− ln(n− 1).

-Es monótona on respe to a la in lusión de onjuntos (proposi ión 2.5).

Probamos también que es una fun ión que umple la propiedad subaditiva pero que en ge-

neral, no es aditiva, omo vimos en el ejemplo 2.8.

R(m) no es una medida de aleatoriedad o de espe i idad propiamente di ha, aunque mide

un tipo on reto de aleatoriedad para un tipo determinado de onjuntos. Puede ser un buen

omplemento para una medida de in ertidumbre total para onjuntos onvexos de probabilidades

y omo ya hemos visto para tipos más on retos omo son las eviden ias.

Si quisiéramos uanti ar la in ertidumbre en una a.b.p., es posible que la fun ión G no sea

lo su ientemente buena para medir la aleatoriedad que ontiene, por lo que quizá ne esite un

omplemento omo el que proponemos o ne esitemos bus ar otra fun ión que tenga en uenta

todo esto. La amplia ión, que omentamos, no es la úni a posible, puesto que de forma natural

podríamos proponer una fun ión de una distan ia para que umpla el mismo papel.

Una lara ventaja que tiene nuestro fa tor on respe to a otros a proponer, es que de for-

ma sen illa se amplía a onjuntos onvexos de probabilidad en general, on fun ionamiento

y propiedades idénti as a las que obtiene en asigna iones bási as de probabilidades. No hay

mas que ver las demostra iones realizadas en las propiedades para darse uenta de la fá il

generaliza ión.

Capítulo 3

Medidas de in ertidumbre para

onjuntos onvexos de distribu iones

de probabilidad

3.1. Introdu ión

El objetivo que nos planteamos en este apítulo es el de denir medidas de in ertidumbre

sobre onjuntos onvexos en general. Consideraremos los mismos tipos de in ertidumbre que

en la teoría de la eviden ia. Un onjunto onvexo onlleva in ertidumbre de tipo entrópi o y de

tipo impre iso (no-espe i idad). Las ideas intuitivas en las que se basaban estas medidas en

la teoría de la eviden ia no son fá iles de trasladar a la típi a representa ión de un onjunto

onvexo a partir de restri iones lineales o de un onjunto de vérti es. En una a.b.p. sabemos

de forma lara que uanto mayor sea la masa de los sub onjuntos mayores, mayor será la

no-espe i idad que representa. De forma similar o urre on la entropía uando las masas

están repartidas entre onjuntos disjuntos. Nuestra base estará en analizar lo que representan

las situa iones anteriores para el onjunto de probabilidades aso iado a una a.b.p., para luego

trasladarlo a un onjunto onvexo en general.

La no-espe i idad está rela ionada on una ierta idea del tamaño del onvexo, omo

veremos, y la entrópi a on la situa ión del onvexo on respe to a la probabilidad uniforme.

Nuestro estudio se ha entrado primero en bus ar una fun ión de no-espe i idad para

onjuntos onvexos, puesto que si pretendemos ampliar la U-un ertainty de Higashi y Klir

88 Capítulo 3. Medidas de incertidumbre para conjuntos convexos de distribuciones de probabilidad

[42, que Dubois y Prade [29 generalizan para para a.b.p., ho amos on el problema de que

ésta está denida dire tamente sobre las a.b.p. y no existe una representa ión similar a las

a.b.p. para onjuntos onvexos generales. Lo ontrario o urre on la fun ión que mejor nos

servía para medir la posi ión del onvexo, in ertidumbre entrópi a, el máximo de la entropía

de Shannon que tiene fá il amplia ión a un onjunto onvexo general. Se trataría de resolver

el mismo problema de programa ión no lineal, aunque en estos asos no es sen illo en ontrar

un algoritmo que al an e esa solu ión omo el que vimos para la teoría de la eviden ia. Así

mismo, el fa tor de Kullba k que expusimos, también puede adaptarse para onvexos en general,

aunque en ningún aso tiene un ál ulo sen illo.

Nuestro primeros esfuerzos se han entrado en bus ar una medida de no-espe i idad on

el problema omentado. La mejor medida de no-espe i idad en la teoría de eviden ia está

denida sobre las a.b.p. dire tamente y nos vemos asi obligados a bus ar otra medida, para

onjuntos onvexos, que se apoye en las ara terísti as geométri as del onvexo tal y omo lo

ha e la fun ión I de Dubois y Prade.

El amino seguido hasta llegar a una buena fun ión de no-espe i idad pasó por el intento

de utilizar medidas basadas en el tamaño del onvexo, bien sea de forma dire ta o bien sea a

partir de la varia ión de entropía que el onjunto representa. Hemos invertido bastante tiempo

y esfuerzos en estudiar fun iones de este tipo hasta llegar a una que onsideramos satisfa toria.

Las demostra iones de las propiedades esen iales de estas fun iones no han sido evidentes y

hemos tenido que utilizar diversos tipos de herramientas matemáti as.

La búsqueda de la medida entrópi a fue bastante más sen illa. De manera bási a se podría

haber onsiderado dire tamente al máximo de la entropía de Shannon, aunque aquí no tenía

por qué veri ar todas las propiedades que veri aba en teorías menos generales, por otro lado,

más ompli adas de demostrar.

No sólo estudiamos esta fun ión omo medida entrópi a, sino que, al estar utilizando on-

juntos onvexos en general estudiamos algunas medidas que se basan dire tamente en el on-

junto de los vérti es que denen a tal, y nos en ontramos que, o bien, las fun iones estable idas

de una manera intuitiva no fun ionaban, o bien, no veri aban alguna propiedad importante,

omo veremos en los siguientes apartados.

Vimos en el apítulo 1, que los intervalos de probabilidades son una potente herramienta

para representar la in ertidumbre, no sólo porque sea la forma más natural de representar

probabilidades impre isas, sino porque nos permite un e ien ia omputa ional elevada. Nos-

3.2. Tipos de incertidumbre 89

otros hemos he ho un estudio también sobre la apli a ión de medidas de in ertidumbre en esta

teoría, llegando a proponer un e iente algoritmo que al anza el máximo de la entropía para

onjuntos de intervalos de probabilidades.

Una vez que tenemos laro qué medidas eran las que mejor nos uanti aban los tipos de

in ertidumbre anteriores, intuitiva y matemáti amente, estable eremos una medida de in erti-

dumbre total para posteriormente en ontrar apli a iones de ésta, objetivo nal de esta tesis.

De he ho, en ontraremos en el apítulo 5 apli a iones de las medidas de in ertidumbre sobre

intervalos de probabilidad a la onstru ión de árboles de lasi a ión.

En la se ión 2 de este apítulo, veremos de forma breve, las razones por las que onsi-

deramos los mismos tipos de in ertidumbre para un onjunto onvexo genéri o, que para uno

parti ular pro edente de una a.b.p.. En la se ión 3 analizamos algunas posibles medidas en-

trópi as, llegando a onsiderar al máximo de la entropía de Shannon omo mejor medida.

Sobre onjuntos onvexos demostraremos las propiedades bási as de estas medidas. También

propondremos un e iente algoritmo para el ál ulo del máximo de la entropía de Shannon

sobre onjuntos de intervalos de probabilidad. En la se ión 4 expli aremos uales han sido

nuestros estudios en la búsqueda de una medida de no-espe i idad, hablaremos de las más

interesantes, analizando su omportamiento y umplimiento de propiedades esen iales. En la

se ión 5 estudiaremos la aditividad de las medidas de in ertidumbre expuestas en los aparta-

dos anteriores. Le dedi aremos un apartado al estudio de esta propiedad puesto que está basada

en la deni ión de independen ia, deni ión algo problemáti a puesto que se han dado varias

de ellas que en ajan bien en determinadas situa iones, Couso, Moral y Walley [23. La se ión

6 onsidera la deni ión de medidas de in ertidumbre total y la se ión 7 está dedi ada a las

on lusiones.

3.2. Tipos de in ertidumbre

Cuando en la teoría de la eviden ia hablamos de no-espe i idad tenemos laro al observar

las masas de una a.b.p. si ésta es mayor o menor. Grá amente esto se rela iona on el

tamaño del onvexo de probabilidades que representa, aunque lo de tamaño no lo de imos

por la dimensión de éste, sino que lo podríamos expresar mejor en términos de varia ión de

entropías de las probabilidades que hay dentro de ese onjunto. El he ho de que un onjunto de

gran número de elementos tenga una masa grande nos va a produ ir un reparto mayor entre

los elementos individuales uando queramos al ular el onjunto onvexo de distribu iones de

probabilidad aso iado. Grá amente tendríamos onjuntos en los que apare en los vérti es más

separados, por lo que obtendríamos un onjunto mayor. Lo que expresamos omo varia ión de

entropías no sólo se reere a la pertenen ia al onvexo de probabilidades on distinto valor de

entropías, sino también a la pertenen ia al onjunto de probabilidades on entropías similares

pero on inter ambio de masas entre los distintos valores de la variable. Así pues si por ejemplo

tenemos una a.b.p. sobre un onjunto nito X = x1, x2, x3 que ontiene a las probabilidades

(0.5, 0.5, 0) y (0.5, 0, 0.5) y pensamos en la forma de obtener el onvexo a partir de una a.b.p.,

rápidamente sabemos que la masa del onjunto x2, x3 debe ser 0.5, lo que añade una antidad

de 0.5 log(2) al valor de la no-espe i idad de esa a.b.p.

De la misma forma que está rela ionada la varia ión de masas entre los vérti es de un

onjunto onvexo que pro eda de una a.b.p. on la no-espe i idad que se produ e, debe o urrir

on un onjunto onvexo en general: aunque no se puede hablar de masas si se puede analizar

el valor de los vérti es para intentar medir di ha varia ión. A este tipo de in ertidumbre en un

onjunto onvexo general también se le llama no-espe i idad, puesto que expresa una falta de

pre isión en la representa ión de la informa ión que tenemos.

Aunque en prin ipio pare e que la espe i idad del onvexo está rela ionada on el tamaño

de éste, realmente no lo es on respe to a la idea que tenemos de tamaño rela ionado on la

dimensión, omo podemos ver en el ejemplo 3.1.

Ejemplo 3.1 Sean las a.b.p. m1,m2siguientes sobre X = x1, x2, x3 tales que:

m112 = 1

m212 = m2

13 = m223 =

Los onjuntos onvexos aso iados, que podemos ver en las guras 3.1 y 3.2, vienen deter-

minado por los vérti es

Cm1 = 〈(1, 0, 0); (0, 1, 0)〉

Cm2 = 〈A(2

3, 0);C(

3, 0);D(0,

3);E(0,

3);F (

3)〉,

donde expresamos on la simbología 〈〉 las ombina iones onvexas de esas probabilidades.

Utilizando la fun ión I, tenemos que la no espe i idad de m1y m2

del ejemplo 3.1 es

igual y vale log(2), pero representan dos onjuntos totalmente distintos de distribu iones de

probabilidad on diferen ia notable en la dimensión de ambos.

Figura 3.1: Conjunto convexo asociado a m1 del ejemplo 3.1

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Ejemplo 3.2 Sean las a.b.p. m3,m4sobre X = x1, x2, x3 tales que:

m31 = 0.6; , m3

123 = 0.4

m41 = m4

2 = m43 = 0.2; , m4123 = 0.4

Los onjuntos onvexos aso iados, que podemos ver en las guras 3.3 y 3.4, vienen deter-

minado por los vérti es

Cm3 = 〈(1, 0, 0); (0.6, 0, 0.4); (0.6, 0.4, 0)〉

Cm2 = 〈(0.6, 0.2, 0.2); (0.2, 0.6, 0.2); (0.2, 0.2, 0.6)〉,

Por otro lado, si onsideramos los vérti es de los onjuntos onvexos de las las a.b.p. del

ejemplo 3.2, tenemos que de forma similar en ambas a.b.p. se produ e un inter ambio de masa

de valor 0.4 de xi a xj, sin embargo, omo se puede apre iar m3da lugar a un onjunto que

debe ontener menor in ertidumbre puesto que apunta laramente ha ia x1 y tenemos que

en ambos las no-espe i idades, por la fun ión I, es de 0.4 log(3).

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Si pensamos en el valor nulo de I para probabilidades (y en general de ualquier fun ión de

no-espe i idad para a.b.p.) y en este último ejemplo, es evidente que no debemos plantearnos

la no-espe i idad omo medida úni a de in ertidumbre en la teoría de la eviden ia y por

supuesto para onjuntos onvexos. Aunque bien es ierto que para una a.b.p. una masa grande

para un onjunto de ardinal alto supone también un reparto entre los elementos individuales

y on ello el mayor a er amiento a la probabilidad uniforme, lo que aumenta el valor entrópi o

de la in ertidumbre del onvexo.

Tener en uenta la situa ión geométri a del onvexo sería ne esario en ambos asos para

obtener un valor orre to de la in ertidumbre de éste. El máximo de la entropía de Shannon

puede ser una medida ideal para tal situa ión. Obtendríamos, en el último ejemplo, valores de

0.95 y log(3) = 1.10 para las a.b.p. m3y m4

, respe tivamente. Aunque tampo o ésta se debe

onsiderar omo medida úni a de in ertidumbre sobre un onvexo, puesto que si nos jamos en

las a.b.p. del ejemplo 3.3, la distribu ión uniforme y la ignoran ia total, ambas tiene el mismo

valor del máximo de la entropía de Shannon y es evidente la diferen ia entre ambos onjuntos

onvexos.

m51 = m5

2 = m52 =

m6123 = 1

Los onjuntos onvexos aso iados, que podemos ver en la gura 3.5, vienen determinado

por los vérti es

Cm5 = 〈(13,1

Cm6 = 〈(1, 0, 0); (0, 1, 0); (0, 0, 1)〉,

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 3.5: Conjuntos convexos asociados a m5 y m6 del ejemplo 3.3

Veremos que no sólo debemos onsiderar al máximo de la entropía para tener un valor

relativo a la posi ión, pues se puede obtener una medida de la posi ión del onvexo a partir de

una fun ión de los vérti es, aunque veremos que la primera tiene mejores propiedades.

El fa tor Kullba k planteado en el apítulo 2, también se puede in luir en una medida

de in ertidumbre total para onvexos en general, pues tiene la ventaja de que es fá ilmente

generalizable y matemáti amente tiene una serie de propiedades ampliables a este tipo mas

general de representa ión de la in ertidumbre.

El tipo de in ertidumbre que mide este fa tor, omo vimos, es una mez la de entrópi o o

posi ional para un onjunto de onvexos que ontenían a la probabilidad de mayor entropía,

la uniforme, y de tipo noespe í o, pues en este onjunto su valor dependía del tamaño del

onvexo. En ambio para el onjunto de los onjuntos onvexos que no ontenían al máximo

de la entropía su valor era nulo.

Al igual que vimos en la teoría de la eviden ia, una medida de in ertidumbre que mida un

tipo de in ertidumbre, MU , debe umplir algunas de las siguientes propiedades en el onjunto

de todos los onjuntos onvexos de distribu iones de probabilidad sobre un onjunto nito X:

(1) Sea ontinua.

(2) Coin ida on la entropía de Shannon para probabilidades MU(p) = H(p), on H la

entropía de Shannon, p distribu ión de probabilidad.

(3) Esté bien denida 0 ≤MU(C), para todo C onjunto onvexo sobre X.

(4) Sea máxima para la in ertidumbre total:

0 ≤MU(C) ≤MU(PPn)

on C onjunto onvexo sobre X, PPnel poliedro probabilísti o sobre X tal que |X| = n,

que oin ide el onjunto onvexo Cm6 de la eviden ia del ejemplo 3.3.

(5) Sea monótona re iente. Si C,C ′son onjuntos onvexos sobre X tales que C ⊆ C ′

enton es MU(C) ≤MU(C ′)

(6) Sea subaditiva. Sea C onjunto onvexo sobre X × Y , X e Y nitos, y sean CX y CY

sus proye iones sobre X e Y respe tivamente, enton es:

MU(C) ≤MU(CX) + MU(CY )

(7) Sea aditiva. Si C onjunto onvexo sobre X × Y tal que C = CH(CX × CY enton es

MU(C) = MU(CX) + MU(CY )

En el aso de estar hablando de una medida entrópi a, amplia ión de las medidas de entropía

de teorías menos generales, debería umplir las siguiente propiedades del onjunto anterior:

(1), (2), (3), (4), (5), (6), (7),

pues es el onjunto de propiedades bási as de la entropía de Shannon para probabilidades.

En ambio, una medida de no-espe i idad debe veri ar para onjuntos onvexos el si-

guiente onjunto de propiedades:

(1), (3), (4), (5), (7),

donde omo vemos no tiene por qué oin idir on la entropía de Shannon para probabilidades,

si no que debe valer 0 para estas por el tipo de in ertidumbre que representa, que llamaremos

propiedad (8):

(8) Si C onjunto onvexo sobre X nito tal que C = p on p una distribu ión de probabilidad

enton es

MU(C) = 0

para MU medida de no-espe i idad.

Mas ontrovertida es la anula ión del requisito de la subaditividad para las medidas de

no-espe i idad para onvexos, pero esto es fá il de justi ar si nos jamos en el siguiente

ejemplo:

Ejemplo 3.4 Sobre X = x11, x12, x21, x22 = X1×X2 on Xi = xi1, x

i2, i = 1, 2, llamando

a xij = (x1i , x

2j ), i, j = 1, 2. Consideremos el onvexo C determinado por las ombina iones

onvexas de los vérti es

A(0.1, 0.4, 0.2, 0.3) y B(0.15, 0.35, 0.15, 0.35).

Tanto A omo B produ en las marginales sobre X1 y X2, respe tivamente

CX1 = (0.5, 0.5)

CX2 = (0.3, 0.7).

Ahora tenemos que por la propiedad (8) las no-espe i idades de CXi(i = 1, 2) deben ser

0, pero no así la de C que engloba un onjunto de varias alternativas, por lo que tenemos que

no debe veri arse la subaditividad para onvexos ualesquiera.

En la teoría de la eviden ia esta situa ión era imposible. No podíamos tener un onjunto

global, distinto de una probabilidad, uyas marginales fuesen probabilidades pre isas. Allí si

se veri aba la subaditividad. Sin embargo, aquí tenemos una mayor variedad de situa iones,

in luyendo algunas en las que esta propiedad no tiene sentido.

Ahora una fun ión que mida la in ertidumbre total sobre onvexos, onsiderando ésta omo

medida entrópi a y de no-espe i idad, debe veri ar el onjunto siguiente de propiedades:

(1), (2), (3), (4), (5), (7),

3.3. Medidas entrópicas 97

pues no tiene por qué ser subaditiva al tener una omponente para la que no oherente serlo,

omo hemos visto en el ejemplo 3.4.

En el aso de la propiedad de la aditividad podemos partir de distintas deni iones de

independen ia sobre onjuntos onvexos, Couso, Moral y Walley [23. La aditividad dependerá

del on epto que usemos en ada momento

3.3. Medidas entrópi as

Podemos pensar que la mejor forma de medir la omponente entrópi a de la in ertidumbre

de un onjunto onvexo es onsiderar la posi ión de éste respe to a la distribu ión uniforme

y ésta debería depender de los vérti es de di ho onvexo, pues nos determinan exa tamente

donde está ubi ado. Por tanto, podemos intentar medir di ha omponente basándonos en una

fun ión de los vérti es.

Por otro lado, en la teoría de la eviden ia vimos que el máximo de la entropía umplía

todas las propiedades bási as requeridas, aunque al onsiderar una medida de in ertidumbre

total añadiéndole la de Dubois y Prade resultaba in ompleta, por lo que añadimos el fa tor

Kullba k. Por tanto, podríamos pensar en la suma de ambas fun iones omo medida entrópi a

también para onvexos, por la fá il amplia ión.

Vamos a onsiderar los dos puntos de vista anteriores. Por un lado veremos que no es

sen illo estable er una fun ión de los vérti es para onjuntos onvexos en general, que fun ione

orre tamente, pero, por otro lado, las fun iones que teníamos de teorías anteriores sí lo ha en.

En la subse ión 3.3.1 veremos los in onvenientes que tiene el estable er omo medida en-

trópi a la entropía del entro de masas de un onvexo o la media de las entropías de los vérti es

de un onvexo. En la subse ión 3.3.2 veremos las propiedades del máximo de la entropía pa-

ra onjuntos onvexos, así omo su ál ulo para un tipo muy útil de onvexos omo son los

onjuntos de intervalos de probabilidad.

3.3.1. Entropía del entro de masas y entropía media de los vérti es de un

onjunto onvexo

Podemos denir la entropía del entro de masas de un onvexo omo

Deni ión 3.1 Denimos la entropía entro de masas de un onjunto onvexo C omo la

entropía de la probabilidad pC , obtenido omo:

donde vjm1 son los vérti es de C

Notaremos a pC al entro de masas del onvexo C

Análogamente la entropía media de los vérti es se puede expresar:

Deni ión 3.2 Sea la fun ión HVdenida sobre los onjuntos onvexos sobre X nito on

|X| = n, on la nota ión de la deni ión anterior, de la siguiente forma:

HV (C) =1

Por la onvexidad de H sabemos que

H(pC) ≥ HV (C)

Ejemplo 3.5 Consideremos los onvexos, provenientes de a.b.p., que vienen determinados

por los vérti es:

Cm1 = 〈(0.4, 0.3, 0.3); (0.3, 0.4, 0.3); (0.3, 0.3, 0.4)〉,

Cm2 = 〈(0.4, 0.2, 0.4); (0.2, 0.4, 0.4); (0.2, 0.2, 0.6)〉,

Cm3 = 〈(0.6, 0.2, 0.2); (0.1, 0.7, 0.2); (0.1, 0.2, 0.7)〉.

Grá amente los podemos ver en las guras 3.6 y 3.7.

Tanto una medida omo otra pade en el problema importante de que no son monótonas,

puesto que Cm3 ontiene a Cm1 y Cm2 , y o urre que

H(pCm1) > H(pCm3

H(pCm2) < H(pCm3

Además:

HV (Cm1) = 1.089,

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 3.6: Conjuntos convexos asociados a m1 y m2 del ejemplo 3.5

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxx

HV (Cm2) = 1.020,

HV (Cm3) = 0.851,

por lo que

HV (Cm1) > HV (Cm3)

y también

HV (Cm2) > HV (Cm3).

Tras este ejemplo, vemos que tenemos importantes in oheren ias on estas fun iones.

Ejemplo 3.6 Consideremos el onvexo de una a.b.p. m4, determinado por los vérti es:

Cm4 = 〈(0.15, 0.65, 0.2); (0.1, 0.7, 0.2)〉.

Grá amente lo podemos ver en la gura 3.8.

Vuelve a o urrir que Cm4 ⊂ Cm3 pero ahora HV (Cm4) = 0.844 < HV (Cm3) = 0.851

Otro aspe to negativo es la falta de ontinuidad de estas fun iones, omo se puede ver en

el siguiente ejemplo.

Ejemplo 3.7 Consideremos los onvexos C1 y C2 determinados por los vérti es:

C1 = 〈(0, 0, 1); (0.5, 0.5, 0)〉

C2 = 〈(0, 0, 1); (0.5, 0.5, 0); (0.5 − ε, 0.5 + ε, 0)〉

Grá amente los podemos ver en la gura 3.9.

Tenemos que

(1− ε

3,1 + ε

para ualquier valor de ε ≥ 0. Con lo que tendríamos que:

H(pC1) = 1.040

H(pC2) = −1

(1− ε

1 + ε

(1 + ε

Y si ha emos ε→ 0 tenemos que pC2 → log(3) de forma re iente. O sea, que si C2 → C1

la diferen ia pC2 − pC1 aumenta, on lo que se rompería la posibilidad de que esta fun ión sea

ontinua.

Lo mismo o urre on HV (C1) y HV (C2), puesto que

HV (C1) =log(2)

HV (C2) =log(2)− (0.5 − ε) log(0.5 − ε)− (0.5 + ε) log(0.5 + ε)

y a medida que ε→ 0, o sea que C2 → C1, HV (C2) se aproxima a log(2) de forma re iente,

luego la diferen ia HV (C2)−HV (C1) también aumenta.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

C C1 2

Figura 3.9: Conjuntos convexos asociado a los convexos C1 y C2 del ejemplo 3.7

3.3.2. El máximo de la entropía de Shannon para onjuntos onvexos

Esta fun ión, que veri aba las propiedades bási as en la teoría de la eviden ia y es fá ilmen-

te ampliable a onjuntos onvexos en general, es onsiderada por algunos autores, Harmane

y Klir [39, omo una fun ión apaz de medir toda la in ertidumbre en un onjunto onvexo,

pero omo vimos en el ejemplo 3.3 tenemos que dis repar de tal opinión. Nosotros la onsi-

deramos omo medida de uno de los fa tores de la in ertidumbre, pero no de toda la falta de

informa ión. Lo mismo le o urre para onjuntos onvexos en general, omo podemos ver en el

siguiente ejemplo.

Ejemplo 3.8 Consideremos el onvexo C determinado por los vérti es:

C = 〈(1, 0, 0); (0.6, 0.4, 0); (1

3); (0.6, 0, 0.4)〉

Grá amente lo podemos ver en la gura 3.10.

El máximo de la entropía es el mismo que en la distribu ión uniforme o la ignoran ia, pero

hay diferen ias notables en ambas situa iones.

Por lo que se ha e ne esario un omplemento que mida la no-espe i idad.

Vamos a denir esta fun ión para onjuntos onvexos:

Deni ión 3.3 Sea G∗la fun ión denida sobre todos los onjuntos onvexos de distribu io-

nes de probabilidad sobre un onjunto nito X de la forma

G∗(C) = maxp∈C

para todo C onjunto onvexo sobre X.

En la teoría de la eviden ia la notamos simplemente omo G, aquí la notamos omo G∗

pues más adelante utilizaremos también el mínimo de la entropía de un onvexo que notaremos

por G∗ por simetría.

Con la nota ión anterior, la fun ión G∗sobre onjuntos onvexos de distribu iones de

probabilidad, veri a las mismas propiedades que G en la teoría de la eviden ia.

Proposi ión 3.1 Es monótona, es de ir, sean C y C ′dos onjuntos onvexos de distribu io-

nes de probabilidad sobre un onjunto nito X de forma que C ⊆ C ′, enton es G∗(C) ≤ G∗(C ′).

Demostra ión: Es inmediata por la propia deni ión de G∗

Proposi ión 3.2 Está bien denida, G∗(C) ≥ 0, ∀C onjunto onvexo de distribu iones de

probabilidad sobre un onjunto nito X.

Demostra ión: Es inmediata, puesto que H(p) ≥ 0 para toda distribu ión de probabilidad p.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 3.10: Conjunto convexo asociado al convexo C del ejemplo 3.8

Proposi ión 3.3 Es máxima para la ignoran ia total on rango el onjunto [0, ln(n)], donde

n = |X|.

Demostra ión: Es máxima, ln(n), uando la distribu ión de probabilidad uniforme pertene e

a C y es mínima, 0, uando C es una distribu ión de probabilidad degenerada

Proposi ión 3.4 Es subaditiva, es de ir, si C es un onjunto onvexo de distribu iones de

probabilidad sobre un universal nito X × Y, enton es G∗(C) ≤ G∗(CX) + G∗(CY ).

Demostra ión: Con la nota ión anterior, supongamos que tenemos que el máximo se da en una

distribu ión de probabilidad p, G∗(C) = H(p), tal que p1es su marginal sobre X y p2

marginal sobre Y . Enton es utilizando la desigualdad de Gibbs tenemos que

G∗(C) = H(p) = −∑

x∈X,y∈Y

pxy ln(pxy) ≤ −∑

x∈X,y∈Y

pxy ln(p1xp2

= −∑

x∈X,y∈Y

pxy ln(p1x)−

x∈X,y∈Y

pxy ln(p2y) = −

p1x ln(p1

x)−∑

p2y ln(p2

y) ≤

≤ G∗(CX) + G∗(CY )

Proposi ión 3.5 Es aditiva, es de ir, sea C un onjunto onvexo de distribu iones de proba-

bilidad sobre X×Y tal que hay independen ia sobre C, es de ir, C = CH(CX×CY ), enton es

G∗(C) = G∗(CX) + G∗(CY ).

Demostra ión: Por la propiedad anterior, sabemos que siempre se veri a que

G∗(C) ≤ G∗(CX) + G∗(CY )

Ahora, notando G∗(CX) + G∗(CY ) = H(p1) + H(p2), tenemos que

G∗(CX) + G∗(CY ) = −∑

p1x ln(p1

x)−∑

p2y ln(p2

= −∑

x∈X,y∈Y

y ln(p1xp2

y) ≤ G∗(C),

puesto que p1p2pertene e a C por la hipótesis de independen ia.

probabilidades 105

probabilidades

Uno de los prin ipales problemas de esta medida es su ál ulo ya que es difí il de obtener. Sin

embargo, hay algunos asos parti ulares donde se puede al ular de forma omputa ionalmente

e iente. En de Campos, Huete y Moral [10, se demuestra que los intervalos de probabilidades

son un aso espe ial de onjuntos onvexos de distribu iones de probabilidad que pueden ser una

herramienta interesante para representar la in ertidumbre, por dos razones: primero porque

son una forma muy natural de expresar la impre isión sobre las probabilidades y segundo,

omo muestran los autores en el itado artí ulo, podemos realizar las opera iones importantes

sobre estos onjuntos on una gran e ien ia. Los autores, en el itado artí ulo estudian en

detalle opera iones importantes y omparan esta teoría on otras, en ontrando una e ien ia

omputa ional superior.

A ontinua ión, presentamos un algoritmo simple y rápido que al ula en un número -

nito de pasos el máximo de la entropía para un onjunto de intervalos de probabilidades, que

expusimos en Abellán y Moral [5.

Deni ión 3.4 Consideremos una variable X que toma valores en el onjunto nito ΩX =

x1, x2, ..., xn y una familia de intervalos L = [li, ui, ], i = 1, ..., n, veri ando que 0 ≤ li ≤ui ≤ 1,∀i.

Podemos interpretar estos intervalos omo un onjunto de límites de probabilidad por medio

de la deni ión del onjunto P de distribu iones de probabilidad sobre ΩX , siendo

CL = p ∈ P (ΩX)|li ≤ p(xi) ≤ ui,∀i,

donde P (ΩX) expresa el onjunto de todas las medidas de probabilidad denidas sobre un

dominio nito ΩX . Así, diremos que L es un onjunto de intervalos de probabilidad y que CL

es el onjunto de todas las posibles distribu iones de probabilidad aso iadas a L.

CL es un onjunto onvexo de distribu iones de probabilidad on un número nito de puntos

extremos. En el apítulo 1 vimos un algoritmo para al ular los puntos extremos.

Ahora, presentamos el algoritmo que obtiene el máximo de la entropía en un onjunto de

probabilidades no va ío y al anzable.

Para expresar el algoritmo, ne esitamos previamente algunos pro edimientos simples:

Sum(l) devuelve la suma de 1 a n del array l.

Min(l, S) devuelve el índi e del mínimo valor del array l en el onjunto de índi es S.

Sig(l, S) devuelve el índi e del segundo valor menor del array l entre todos los índi es del

onjunto S, devuelve −1 si éste no existe.

Nmin(l, S) devuelve el número de índi es que al anzan el mínimo valor del array l entre los

índi es del onjunto S.

Min(a, b, c) devuelve el mínimo valor del onjunto a, b, c, siendo a, b y c números reales.

Sean l, u los arrays que ontienen a los extremos de los intervalos de probabilidad de un

onjunto L de intervalos de probabilidad al anzables, siendo P el onjunto no va ío de proba-

bilidades aso iado. Sea p el array donde tendremos la distribu ión de máxima entropía y S un

onjunto de índi es. El algoritmo se llama on S = 1, 2, . . . , n.

Algoritmo 3.1 Algoritmo del ál ulo del máximo de la entropía de Shannon para

intervalos de probabilidad

S ← 1, ..., n;

GetMaxEntro(l, u, p, S)

For i = 1 to n do pi ← li;

If Sum(l) < 1

For i = 1 to n do

If li = ui

S ← S − i;s← Sum(l);

r ←Min(l, S);

f ← Sig(l, S);

m← Nmin(l, S);

For i = 1 to n

probabilidades 107

If li = Min(l, S)

If Sig(l, S) = −1

li ← li + Min(ui − li,1−sm

li ← li + Min(ui − li, lf − lr,1−sm

GetMaxEntro(l, u, p, S);

Ahora se puede ver el fun ionamiento del algoritmo a través del siguiente ejemplo:

Ejemplo 3.9 Para el onjunto de intervalos de probabilidad L denido sobre el onjunto

nito x1, x2, x3, x4, x5 y dado por

L = [0, 0.3], [0.3, 0.5], [0.1, 0.5], [0.1, 0.4], [0, 0.1],

el array p donde se a umula el máximo de la entropía tiene el siguiente valor en ada i lo del

algoritmo:

1.- p = (0, 0.3, 0.1, 0.1, 0)

2.- p = (0.1, 0.3, 0.1, 0.1, 0, 1)

3.- p = (0.2, 0.3, 0.2, 0.2, 0.1)

Como podemos observar, el algoritmo omienza on los extremos inferiores del onjunto de

intervalos de probabilidad y va rellenando esos valores, hasta que la suma de todos sea uno,

de una forma uniforme, de abajo ha ia arriba. Nos va a dar una distribu ión de probabilidad

que mejor reparte las probabilidades, on un onjunto de omponentes iguales a los extremos

inferiores, en el ejemplo orrespondería al onjunto x2, un onjunto que oin ide on los

valores superiores, en el ejemplo sería x5, y un onjunto donde se al anzan valores igua-

les y entre los valores superior e inferior pero distinto a éstos, en nuestro aso x1, x3, x4.Finalmente p ontiene a la distribu ión de probabilidad on máxima entropía omo podemos

demostrar a ontinua ión, aunque previamente ne esitamos enun iar un lema que nos servirá

de herramienta en di ha demostra ión.

A ontinua ión, utilizaremos (pi)n1 para representar un array de dimensión n de números

reales no negativos. Llamaremos (p∗i )n1 al mismo array reordenando sus omponentes de forma

no re iente. Evidentemente tanto p omo p∗ tienen la misma entropía.

Lema 3.1 (Wasserman and Kadane [103) Sean p, q dos distribu iones de probabilidad sobre

un onjunto nito X on n elementos. Si

∑ji=1 p∗i ≤

∑ji=1 q∗i , para j = 1, ..., n, enton es

H(p) ≥ H(q)

Con este lema podemos probar el siguiente teorema que muestra que el algoritmo realmente

al ula la distribu ión de probabilidad on máxima entropía uando se apli a a un onjunto de

intervalos de probabilidad al anzables.

Teorema 3.1 El algoritmo denido anteriormente al anza, en un número nito de pasos,

el máximo de la entropía para el onjunto de probabilidades que determina un onjunto de

intervalos de probabilidad [li, ui]n1 , C = (p)n1 | pi ≥ 0, li ≤ pi ≤ ui,∑

i pi = 1La omplejidad del algoritmo es de orden O(n2) donde n es el número de elementos de X.

Demostra ión:

Sea p la distribu ión de probabilidad obtenida por el algoritmo. Sin pérdida de generalidad,

podemos asumir que p∗ = p. Esto se basa en el he ho de que la entropía no ambia bajo una

permuta ión de los elementos de X, así que siempre se puede asumir que la probabilidad nal

asigna valores a los elementos de X de forma no re iente. Esto nos simpli ará el resto de la

demostra ión.

Bajo esta ondi ión, la probabilidad p que obtiene el algoritmo se puede dividir en tres

partes:

p = (p1, . . . , ps, ps+1, . . . , pt, pt+1, . . . , pn)

tal que:

probabilidades 109

La primera parte, (p1, . . . , ps), ontiene los mayores valores de probabilidad y ada pi es igual

a su límite inferior, expresado en los intervalos por li.

La segunda parte, (ps+1, . . . , pt), ontiene valores onstantes, α.

La ter era parte, (pt+1, . . . , pn), ontienen a los valores superiores de probabilidad de ada

omponente pi, expresado en los intervalos por ui.

Podemos asumir que ps > ps+1 y pt > pt+1. Si tenemos una igualdad podemos mover los

elementos iguales a la segunda parte del ve tor anterior.

Puesto que H es una fun ión onvexa es sólo ne esario demostrar que H(p) es un máximo

relativo en B(p, ǫ)∩CL, para algún ǫ > 0, on B el onjunto de distribu iones de probabilidad

B(p, ǫ) = (q)n1 |d(p, q) ≤ ǫ y d es la distan ia eu lídea sobre IRn.

Cualquier q ∈ B(p, ǫ) ∩ CL tiene los siguientes omponentes:

q = (p1 + ǫ1, .., ps + ǫs, ps+1 ± ǫs+1, .., pt ± ǫt, pt+1 − ǫt+1, .., pn − ǫn)

on 0 ≤ ǫi ≤ ǫ,∀iLa razón para esto es que los elementos de pi on i = 1, . . . , s son iguales a sus límites

inferiores li (y no podemos tener valores menores a éstos) y para i = t+1, . . . , n pi son iguales

a sus límites superiores (y no podemos tener valores mayores a éstos).

Consideremos en orden no re iente el ve tor q:

q∗ = (q∗1 , ..., q∗s , q∗s+1, ..., q

∗t , q∗t+1, ..., q

Si ǫ < Min(ps−ps+1, pt−pt+1), enton es tenemos que ada una de las tres partes (q∗1 , ..., q∗s),

(q∗s+1, ..., q∗t ) y (q∗t+1, ..., q

∗n), se obtiene de las orrespondientes partes de q (podemos tener un

ambio de elementos dentro de ada parte, pero ningún valor se moverá de una parte a otra).

Nos queda la siguiente situa ión:

Cada uno de los valores de (q∗1 , ..., q∗s ) es igual a un valor diferente de (p1, . . . , ps) mas un valor

no negativo (qi = pi + ǫi).

Cada uno de los valores de (q∗s+1, ..., q∗t ) es igual a un valor diferente de (ps+1, . . . , pt) mas o

menos un valor no negativo. Como los valores de (q∗s+1, ..., q∗t ) están ordenados de forma no

re iente, y los valores ini iales de (ps+1, . . . , pt) son onstantes, todos los asos en los que el

valor ha sido añadido apare en antes de los asos en los que el valor ha sido sustraido.

Cada uno de los valores de (q∗t+1, ..., q∗n) es igual a un valor diferente de (pt+1, . . . , pn) menos

un valor no negativo (qi = pi − ǫi).

En estas ondi iones, y teniendo en uenta que (q∗1 , . . . , q∗n) está ordenada en forma no

re iente, podemos on luir que para ualquier j = 1, . . . , n, tenemos que

∑ji=1 p∗i =

∑ji=1 pi ≤

∑ji=1 q∗i .

Usando el lema de Wasserman y Kadane [103,

H(p) = H(p∗) ≥ H(q∗) = H(q).

O sea, que p tiene máxima entropía en el onjunto B(p, ǫ) ∩ CL.

La omplejidad del algoritmo se puede dedu ir del he ho de que en ada llamada re ursiva

a GetMaxEntro tenemos que la suma de las probabilidades inferiores es igual a uno y el

algoritmo se para en la siguiente llamada o se umple que para un nuevo índi e i = 1, . . . , n

su límite inferior li se ha e igual a su límite superior ui. Esto último no puede su eder mas de

n ve es, luego el número de llamada re ursivas no es enton es mayor de n. En ada llamada,

las fun iones Sum,Min,Fol ,Nmin tienen una omplejidad de orden O(n) y los i los de 1 a

n interiores onllevan un número onstante de opera iones. Así que obtenemos la omplejidad

bus ada O(n2).

3.5. Medidas de no-espe i idad

Si miramos la no-espe i idad en la teoría de la eviden ia, observamos que está rela ionada

on el tamaño y on la varia ión de entropía, tal y omo expli amos. Si nos jamos en el

ejemplo 3.10 tenemos que m1es más espe í a que m2

puesto que pasamos una masa de

0.1 del onjunto x1 al onjunto x1, x2, x3, produ iéndose un aumento de 0.1 log(3) en la

no-espe i idad de estas a.b.p.

m11 = 0.2, m1

12 = 0.4, m1123 = 0.4

m21 = 0.1, m2

12 = 0.4, m2123 = 0.5

por los vérti es

Cm1 = 〈(1, 0, 0); (0.6, 0, 0.4); (0.2, 0.4, 0.4); (0.2, 0.8, 0)〉

3.5. Medidas de no-especificidad 111

Cm2 = 〈(1, 0, 0); (0.5, 0, 0.5);C(0.1, 0.4, 0.5); D(0.1, 0.9, 0)〉,

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

m m1 2

Figura 3.11: Conjunto convexo asociado a m1 y m2 del ejemplo 3.10

Como vemos m1está ontenida en m2

. Hemos obtenido un ligero in remento de la no-

espe i idad, on un onvexo aso iado mayor.

Este ejemplo 3.10 nos ha e pensar en la rela ión entre el tamaño y el tipo de in ertidumbre

que estudiamos. Aunque según vimos en el ejemplo 3.1, podemos plantearnos dudar sobre esta

arma ión y pensar en la varia ión entrópi a omo fuente prin ipal de la no-espe i idad. Por

tanto, a la hora de plantearnos la búsqueda de una fun ión de noespe idad se pueden seguir

los dos riterios anteriores:

· Determinar una medida de no-espe i idad a partir del tamaño del onvexo. Por lo que,

tendríamos que bus ar una expresión de medida de Lebesgue en la dimensión en la que se

en uentre di ho onvexo.

· Determinar una medida de no-espe i idad a partir de la varia ión entrópi a. Por lo que, nos

tendríamos que plantear la determina ión de la rela ión existente entre vérti es del onvexo,

que realmente son los que nos determinan di ha varia ión, y la no-espe i idad de éste.

Nosotros vamos a plantear aquí algunas medidas estudiadas de a uerdo on los dos puntos

anteriores. En primer lugar, estudiaremos el volumen de un onjunto onvexo, al ulando

previamente el volumen del poliedro probabilísti o. En el apartado 3.4.1 analizaremos on

más detalle las on lusiones obtenidas on este enfoque. En segundo lugar, nos plantearemos

el estudio de la mayor diferen ia entrópi a que se produ e en el onvexo, omo medida prin ipal

de a uerdo al segundo amino anteriormente expuesto. En el apartado 3.4.2 analizaremos esta

medida así omo otras que dire tamente dependen de los vérti es. Veremos las razones por

las que, de manera intuitiva, no tiene un fun ionamiento orre to. Finalmente en el apartado

3.4.3 analizaremos el omportamiento de la fun ión que generaliza la de no-espe i idad de

Dubois y Prade para eviden ias, y veremos que por propiedades y omportamiento es la más

apropiada.

3.5.1. El volumen omo medida de no-espe i idad

El prin ipal problema que nos en ontramos al utilizar el volumen, es el de ajustar la di-

mensión del onjunto onvexo al valor de la no-espe i idad. Pues omo vimos en el ejemplo

3.1 es oherente tener dos onjuntos onvexos on igual valor de no-espe i idad, omo en

este aso de eviden ias y on distinta dimensión. Pensamos que deberíamos utilizar la medida

de Lebesgue del onjunto normalizado por el logaritmo de la dimensión o alguna fun ión de

éste. Pero nos en ontramos on el problema de la no ontinuidad de las fun iones de ese tipo,

tal y omo podemos ver en el ejemplo 3.7, donde para un valor de ε muy pequeño, las no

espe i idades de los dos onvexos deberían ser muy similares, pero esto es ompli ado de

ajustar al tener distintas dimensiones. Por lo que es fá il pensar que se produ e una falta de

ontinuidad.

Este problema del ajuste de la ontinuidad del onvexo nos lleva dire tamente a re hazar

la idea de bus ar alguna fun ión lineal que de forma lógi a dependiera de:

* µ(C), medida o volumen del onjunto onvexo C en su dimensión.

* µ(PPn) volumen del poliedro probabilísti o de dimensión n (medida en IRn−1)

* log(1 + dim(C)), donde dim(C) es la dimensión del onjunto onvexo C. Sumamos 1 para no

obtener 0, por el logaritmo, en los asos de dimensión 1.

donde PPn es el poliedro probabilísti o sobre un onjunto nito X tal que |X| = n, o sea, el

onjunto de todas las distribu iones de probabilidad sobre X.

Lo primero que nos planteamos es el ál ulo del volumen de PPn. Pensamos que era un

resultado ono ido, pero bus ando en la literatura del tema no en ontramos nada publi ado.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Apoyándonos en la herramienta de ál ulo que nos ofre e Lawren e [68, hemos obtenido que:

V ol(PPn) =

(n − 1)!.

Se puede ver el desarrollo de este ál ulo en el Apéndi e B de este apítulo. Es posible obtenerlo

también de forma re ursiva, al ulando el volumen de PPn a partir del de PPn−1.

Una primera medida que nos planteamos, la más dire ta, fue la siguiente:

NE(C) =µ(C)

µ(PPn)log(1 + dim(C)),

pero rápidamente ho amos on el problema de la ontinuidad antes itado.

Ejemplo 3.11 Consideremos los onvexos C1 y C2 determinados por los vérti es:

C1 = 〈(13,1

2, 0)〉

C2 = 〈(13,1

3− ε,

3+ ε,

2, 0); (

2− ε,

2+ ε, 0)〉.

Grá amente los podemos ver en la gura 3.12. En este aso no existe ontinuidad uando

ǫ −→ 0.

También se nos puede romper la monotonía, puesto que los onvexos C1 y C2 de este ejemplo

veri an que µ(C1) = 13 y µ(C2) = 1

3 · ε que tiende a 0 si ha emos ε → 0. Por lo que siendo

µ(PP2) =√

2, tenemos que

NE(C1) =1

2log(2)

NE(C2) =ε

2log(2),

tomando ε < log(2)log(3) ya o urre que NE(C1) > NE(C2) on lo que esta medida no veri a la

monotonía, una propiedad bási a de la no-espe i idad.

Después de ho ar on los problemas anteriores, nos planteamos si es posible trabajar on

esos valores y on las medidas de las proye iones de manera que obtengamos una fun ión que

umpliera on el requisito impres indible de la monotonía. Cuando estábamos investigando

fun iones de esas ara terísti as, nos en ontramos on una medida que tenía las mismas pre-

tensiones que la que nosotros bus ábamos. Klir y Wierman [61 analizan la siguiente fun ión,

planteada originalmente por Klir y Yuan [62. La fun ión es:

HL(C) = mınt∈T

[1 + µ(Cit) + µ(C)−n∏

[µ(Cit)]

donde µ denota la medida de Lebesgue, T es el onjunto de todas las transforma iones de un

sistema de oordenadas ortogonal en otro, Cit es la i-ésima proye ión del onvexo C en el

sistema de oordenadas t.

Aunque, omo se puede observar, no es una fun ión sen illa de manejar, está en la línea de

lo que bus amos.

Está denida para ualquier onvexo, pero para onjuntos onvexos de probabilidades ne-

esitaría del ál ulo que nosotros hi imos del volumen del poliedro probabilísti o para norma-

lizarla y obtener un rango entre 0 y log(n).

Demuestran que sobre el onjunto de los poliedros de IRnveri a las siguientes propiedades:

(1) HL(C) = 0 si C es una probabilidad

(2) HL(C1) ≤ HL(C2) si C1 ⊆ C2 (monotonía)

(3) HL(C) ≤∑i HL(Ci) (subaditividad respe to de las omponentes)

Donde Ci denota la proye ión unidimensional de C al subespa io i en un sistema de oorde-

nadas. Para nosotros sería, en el aso de onjuntos onvexos, la máxima diferen ia de proba-

bilidades para ada omponente.

(4) No ambia el resultado de HL(C) por tranforma iones isométri as del espa io de oordenadas

(por deni ión)

(5) Es ontínua

(6) Tiene rango [0,∞) para ualquier C poliedro de IRn. Con una simple transforma ión se puede

ha er que tome valores en [0, log(n)]

(7) Si C =∏n

i=1 Ci, entendiendo el anterior produ to omo produ to artesiano y donde Ci tiene

el mismo sentido que en (3), tenemos que

HL(C) =n∑

HL(Ci)

(aditividad respe to a las omponentes)

El problema estriba en esta última propiedad, pues aunque Klir y Wierman la demostraron

para dimensión menor o igual a 2, no lo ha en para ualquier n y omentan que en Ramer

[84 se realiza di ha demostra ión en el momento de la realiza ión de la publi a ión en la que

denen la fun ión HL. El aso es que en la referen ia que nos ha en de Ramer no hay ninguna

demostra ión de tal propiedad, sino que se exponen una serie de razones por lo que "debería

ser ierta". Por tanto la demostra ión de esta interesante propiedad queda también abierta.

Si observamos la forma de la fun ión, trabaja on intervalos de probabilidades, es de ir,

aumenta el onvexo a la hora de dar su no-espe i idad, puesto que on µ(Cit) se indi a la

mayor diferen ia de probabilidades en el onvexo, en la oordenada i en el sistema ortogonal

t. Algo similar realizaremos nosotros al dar una medida de no-espe i idad más ompleja

que esta en el apartado 3.4.3, donde intentaremos ampliar la U-un ertainty, para onvexos en

general. Realmente esto es lo que intentan Klir y Wierman on su fun ión HL, a la que llaman

amplia ión de la medida de Hartley, origen de la U-un ertainty, pero quizás sin tanto éxito.

In luso para demostrar la aditividad parten de una deni ión de independen ia muy bási-

a: suponen el onvexo omo produ to de n intervalos y no omo produ to de dos onvexos

ualesquiera o en su aso del as o onvexo de ambos, que es bastante más omplejo y general

de apli ar. En el apartado 3.6 veremos las deni iones de independen ia y la veri a ión de

la aditividad de fun iones de in ertidumbre planteadas en este trabajo, según una deni ión

u otra.

3.5.2. Máxima diferen ia de entropías

La máxima diferen ia de entropías puede servirnos omo medida de no-espe i idad. No-

sotros hemos estudiado su omportamiento y hemos determinado el onjunto de propiedades

que veri a. La notaremos omo

G∗ −G∗ : Pn → [0, log(n)],

donde Pnes onjunto de los onjuntos onvexos de dimensión n, G∗(C) es el máximo de la

entropía del onvexo C y on G∗(C) expresaremos al mínimo de la entropía del onvexo C.

Se trataría de resolver dos problemas de programa ión no lineal, aparentemente similares,

uya solu ión no es sen illa en la mayoría de los asos.

Esta fun ión no tiene el problema del volumen que anteriormente analizamos puesto que

es diferen ia de dos fun iones ontinuas y por tanto es ontinua, y tampo o nos o asiona

problemas on la diferen ia de dimensiones omo se vio on la anterior fun ión. Sin embargo,

en ontramos algún problema a la hora de observar las no-espe i idades de onjuntos similares

a los del ejemplo 3.2 que son de tamaño exa tamente igual y sólo hay varia ión en uanto

su posi ión respe to a la probabilidad uniforme, pero la máxima diferen ia de entropías es

bastante diferente en ambos onjuntos onvexos. La del primero es de 0.95 y la del segundo

0.15, lo que nos ha e pensar en un omplemento que poten ie bastante la situa ión del onjunto

on respe to a la probabilidad uniforme, para arreglar este problema.

Es una diferen ia demasiado grande pues si añadimos, a esta fun ión, el máximo de la entro-

pía omo fun ión entópi a bien estable ida, para obtener una medida de in ertidumbre total,

nos quedaría 1.90 para el primero y 1.25 para el segundo. Por lo que tiene más in ertidumbre

el primer onjunto, lo que no pare e lógi o.

Otro punto en ontra de esta máxima diferen ia lo podemos en ontrar en aquellos ejemplos

en los que se al anza la mayor diferen ia de entropías posible. El onvexo del ejemplo 3.8

obtiene el mayor valor posible de la diferen ia de entropías, es más, ualquier onvexo que

ontenga al segmento denido por los vérti es (1, 0, 0); (13 , 1

3 , 13) tendría el mismo valor. El

problema seria similar al anterior. Sería muy difí il en ontrar el omplemento para obtener

una medida de in ertidumbre total.

Aunque hemos visto que esta fun ión intuitivamente no fun iona de la forma que bus a-

mos, sin embargo, es una fun ión que veri a un onjunto muy interesante de propiedades

matemáti as bási as de las medidas de no-espe i idad.

Hasta ahora no se ha trabajado on la máxima diferen ia de entropías, quizá por la di-

ultad de tratar on otro problema de programa ión no lineal omo es el aso del mínimo

de un onjunto onvexo, aunque demostraremos que éste se en uentra en un vérti e, por lo

que su ál ulo es bastante más sen illo que el del máximo. Nosotros hemos introdu ido la

máxima diferen ia de entropías, por primera vez, y hemos omprobado que matemáti amente

es bastante orre ta.

Vamos a ver una serie de propiedades que veri a el mínimo de la entropía, puesto que

el máximo ya fue analizado en la se ión anterior. Veremos antes un lema que utilizaremos

también más adelante.

Lema 3.2 Sea q distribu ión de probabilidad sobre X nito tal que q =∑m

i=1 αipi, on piidistribu iones de probabilidad sobre X, αi ≥ 0 y

∑i αi = 1, enton es

H(q) ≥ mınj

Demostra ión: Al ser la fun ión H onvexa tenemos que

H(q) ≥m∑

αiH(pi) ≥m∑

αi[mınj

H(pj)] =

αi = mınj

La fun ión mínimo de la entropía para onjuntos onvexos, G∗, veri a las siguientes pro-

piedades:

(1) Tiene rango en [0, log |X|]Al anzando di hos extremos en las probabilidades degenerada y uniforme respe tivamente.

(2) Es monótona de re iente.

C ⊆ C ′ =⇒ G∗(C) ≥ G∗(C ′)

(3) Es una fun ión ontinua.

De forma similar a G∗

(4) Es aditiva

Demostra ión: Si hay independen ia fuerte tenemos que C = CH(CX ×CY ), on C onjunto

onvexo sobre X × Y , X,Y nitos y CX , CY sus marginales sobre X,Y respe tivamente.

Sea p = pX · pYdistribu ión de probabilidad sobre X × Y on G∗(CX) = H(pX) y G∗(CY ) =

H(pY ). Tenemos que p ∈ C por la hipótesis de independen ia fuerte, enton es

G∗(C) ≤ H(p) = H(pX) + H(pY ) = G∗(CX) + G∗(CY )

Para demostrar la otra desigualdad partimos de que el mínimo de la entropía de un onvexo

se en uentra en uno de los vérti es, simplemente apli ando el resultado del lema 3.2. Ahora

tenemos que CH(CX ×CY ) es el onjunto de las ombina iones onvexas de los produ tos de

los vérti es de CX por los de CY

CH(CX × CY ) = pXi · pY

on PXi nX

1 los vérti es de CX y P Yj nY

1 los vérti es de CY . Por tanto, si llamamos G∗(C) =

H(p), tenemos que p ∈ CH(CX × CY ) por hipótesis, luego apli ando el lema 3.2 tenemos:

G∗(C) = H(p) ≥Mini,jH(pXi · pY

j ) ≥ G∗(CX) + G∗(CY ),

teniendo en uenta en este último paso que H(pXi · pY

j ) = H(pXi ) + H(pY

j ), para ualquier

pareja de probabilidades sobre X e Y .

(5) No es subaditiva

Considerando el siguiente ontraejemplo:

Ejemplo 3.12 Sea el onjunto C sobre X × Y on X = x1, x2 e Y = y1, y2,

C = CH((0.5, 0.5, 0, 0); (0.5, 0, 0.5, 0); (0.5, 0, 0, 0.5)),

donde se ordenan las probabilidades omo (p11, p12, p21, p22). Tenemos que

CX = CH((0, 1); (0.5, 0.5))

CY = CH((0, 1); (0.5, 0.5)),

on lo que

log(2) = G∗(C) ≥ G∗(CX) + G∗(Cy) = 0 + 0.

(6) No es superaditiva

Basta on pensar en un onvexo formado sólo por una distribu ión de probabilidad, pues la

entropía de una distribu ión de probabilidad es siempre menor o igual que la suma de las

entropías de sus marginales.

Después de ver las propiedades de G∗ y ono iendo ya las de G∗tenemos que la fun ión de

no-espe i idad sobre onjuntos onvexos sobre un onjunto nito X, dada por G∗−G∗ tiene

las siguientes propiedades:

(1) Tiene rango en [0, log |X|]

(2) Es monótona re iente.

puesto que si C ⊆ C ′tenemos que

G∗(C) ≤ G∗(C ′),

G∗(C) ≥ G∗(C ′)

y restando tenemos

G∗(C)−G∗(C) ≤ G∗(C ′)−G∗(C′).

(3) Es ontinua.

Al ser diferen ia de dos ontinuas.

(4) Es aditiva

Al ser diferen ia de dos aditivas.

Por tanto la diferen ia de entropías satisfa e las propiedades bási as que debe satisfa er una

fun ión de no-espe i idad sobre onjuntos onvexos.

Existe una gran diferen ia entre el ál ulo de G∗y el de G∗. Como sabemos, existen al-

goritmos que al ulan G∗para eviden ias y para intervalos de probabilidades, omo el que

presentamos en la subse ión 3.3, pero no hay algoritmos para el ál ulo de G∗. La gran ven-

taja de éste frente al del máximo es que G∗puede en ontrarse en ualquier punto del onvexo,

lo que di ulta su búsqueda, pero G∗ se en uentra en uno de los vérti es del onvexo por lo

que se redu e el problema al ál ulo de estos. En Mattheiss y Rubin [71 tenemos una amplía

exposi ión de los métodos que nos permiten en ontrar los vérti es de ualquier poliedro. Sólo

tenemos que omparar las entropías de un número nito de puntos, en nuestro aso. Es eviden-

te la obten ión de este resultado a partir del lema 3.2, pero vamos a expresarlo formalmente

en la siguiente propiedad:

Proposi ión 3.6 Sea C onjunto onvexo sobre el onjunto nito X. Enton es G∗(C) se

en uentra en H(p), donde p es un vérti e de C.

Demostra ión: Supongamos que no se en ontrase en un vérti e G∗(C) = H(p′) on p′ no

vérti e. Enton es

p′ =

αipi,

donde pi son los vérti es de C, αi ≥ 0 y

∑i αi = 1, además p′ 6= pi para ualquier i. Ahora

apli ando el lema 3.2 tenemos

H(p′) ≤ mınj

por lo que H(p′) = H(pr) para algún r. Contradi iendo que el mínimo no se en uentra en un

vérti e.

3.5.3. Amplia ión de la U-un ertainty

La máxima diferen ia de entropías de las probabilidades de un onjunto onvexo pare e

fun ionar matemáti amente bien, pero omo vimos hay ejemplos en los que su uso no pare e

muy intuitivo.

Nosotros hemos bus ado una medida de no-espe i idad para onjuntos onvexos sin dejar

de pensar en el buen fun ionamiento de la medida de Dubois y Prade en la teoría de la

eviden ia, por lo que nos mar amos el generalizar ésta y estudiar sus propiedades, Abellán y

Moral [2.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 3.13: Conjunto convexo C

Con el n de obtener di ha generaliza ión o en otro aso otra buena medida de no-

espe i idad, nos mar amos el estudiar el valor de esta medida que deberían tener los onjuntos

onvexos sen illos que no provienen de eviden ias, tales omo el que proviene de las ombina-

iones onvexas de los vérti es en IR3:

(0.5, 0.5, 0); (0.5, 0, 0.5)(0, 0.5, 0.5),

al que llamaremos C y que podemos ver en la gura 3.13.

Si al ulásemos la no-espe i idad de C utilizando la máxima diferen ia de entropías ob-

tendríamos un valor de log(3)− log(2), igual que para el onjunto determinado por las ombi-

na iones onvexas de (0, 0.5, 0.5) y (13 , 1

3 , 13) lo que no pare e muy oherente, pues pare e que

hay menos in ertidumbre en este último porque el onjunto x2, x3 tiene más probabilidad,

mientras que en C todo queda más equiprobable. De he ho, este último onjunto está in luido

Analizando en la teoría de la eviden ia el fun ionamiento de la fun ión I, obtenemos algunos

resultados uriosos. Es ono ido que las eviden ias produ en onjuntos onvexos on aras

paralelas a los lados del poliedro probabilísti o. Teniendo en uenta esto y la propia expresión

de la fun ión I vamos a estudiar los onvexos, pro edentes de varias a.b.p., en el siguiente

ejemplo:

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 3.14: Conjuntos convexos asociados a los convexos C1 y C2 del ejemplo 3.13

Ejemplo 3.13 Sean las a.b.p. m1,m2,m3y m4

siguientes sobre X = x1, x2, x3 tales que:

m123 = 0.5, m1

123 = 0.5,

m22 = 0.5, m2

123 = 0.5,

m313 = 0.5, m3

23 = 0.5,

m42 = 0.5, m4

13 = 0.5.

Los onjuntos onvexos aso iados, que podemos ver en las guras 3.14 y 3.15, vienen de-

terminado por los vérti es

C1 = 〈(0.5, 0.5, 0); (0, 1, 0); (0, 0, 1); (0.5, 0, 0.5)〉,

C2 = 〈(0.5, 0.5, 0); (0, 1, 0); (0, 0.5, 0.5)〉,

C3 = 〈(0.5, 0.5, 0); (0.5, 0, 0.5); (0, 0.5, 0.5); (0, 0, 1)〉,

C4 = 〈(0.5, 0.5, 0); (0, 0.5, 0.5)〉.

Tenemos que se veri a que

I(m1) = I(m2) + I(m3)− I(m4)

I(m1) =1

2log(3) +

2log(2),

I(m2) =1

2log(3),

I(m3) = log(2),

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 3.15: Conjuntos convexos asociados a los convexos C3 y C4 del ejemplo 3.13

I(m4) =1

2log(2).

Pero si tenemos en uenta los onvexos aso iados, onsiderando I(m) ≡ I(Cm), tenemos que:

I(C2 ∪ C3) = I(C2) + I(C3)− I(C2 ∩ C3),

expresión que on uerda on la propiedad de medida aditiva.

Este resultado no es úni o. En todos los ejemplos que hemos probado también se veri a.

El problema se basa solamente en en ontrar dos onvexos que pro edan de eviden ias uya

unión sea también un onjunto onvexo. Nosotros no nos hemos parado a demostrar de forma

teóri a este resultado pero si nos sirve omo referen ia para nuestro objetivo. Este resultado

queda pendiente de estudiar en el futuro.

Esta propiedad nos puede ayudar a en ontrar el valor de la no-espe i idad de C utilizando

la fun ión I.

Ejemplo 3.14 Sean las a.b.p. m′2y m′4

m′23 = 0.5, m′2

123 = 0.5

m′43 = 0.5, m′4

12 = 0.5

por los vérti es

C ′2 = 〈(0.5, 0, 0.5); (0, 0, 1); (0, 0.5, 0.5)〉,

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxx

C’C’

Figura 3.16: Conjuntos convexos asociado a los convexos C ′2 y C ′4 del ejemplo 3.14

C ′4 = 〈(0.5, 0, 0.5); (0, 0.5, 0.5)〉,

Además I(C ′2) = I(C2) y I(C ′4) = I(C4)

Ahora utilizando la propiedad anterior, tendríamos que

I(C3) = I(C) + I(C ′2)− I(C ′4),

por lo que despejando obtenemos

I(C) =3

2log(2) − 1

2log(3).

Otra interesante ara terísti a de la fun ión I la podemos ver en la siguiente propiedad

Proposi ión 3.7 Sean m,m′y m′′

a.b.p. sobre un onjunto nito X tales que m = αm′ +

(1− α)m′′, tenemos que I(m) = αI(m′) + (1− α)I(m′′), on α ∈ [0, 1]

Esta propiedad tiene fá il demostra ión por la forma de la fun ión I.

Veamos algunos ejemplos:

Ejemplo 3.15 Sean las a.b.p. m′y m′′

m′123 = 1,

m′′2 = 1.

I(C2) =1

2I(C ′) +

2I(C ′′),

al ser m2 = 12m′ + 1

2m′′, on m2

la del ejemplo 3.13

m′13 = 1,

m′′23 = 1.

I(C3) =1

2I(C ′) +

2I(C ′′, )

al ser m3 = 12m′ + 1

2m′′, on m3

la del ejemplo 3.13

m′12 = 1,

m′′2 = 1.

I(C4) =1

2I(C ′) +

2I(C ′′, )

al ser m4 = 12m′ + 1

2m′′, on m4

la del ejemplo 3.13

Es otra propiedad que será interesante estudiar en el futuro para onjuntos onvexos en

general.

Ahora, la onjun ión de estas dos propiedades nos ha e pensar en el estudio de una posible

teoría de des omposi ión de onvexos en la teoría de la eviden ia, que se podría trasladar a

teorías más generales. Partiría de la determina ión de onjuntos irredu ibles y nos llevaría a

poder al ular las medidas que nos interesan sobre ualquier onvexo a partir de su des om-

posi ión en irredu ibles. Si se lograse esto, los valores de in ertidumbre no variarían al utilizar

una teoría u otra, es de ir, se respetaría el prin ipio de in ertidumbre invariante que vimos en

el primer apítulo. También este estudio quedará para momentos posteriores.

Volviendo al estudio de I en la teoría de la eviden ia, vimos que ésta se dene dire tamente

sobre las masas m(A), A ⊆ X. Éstas a su vez están rela ionadas on la fun ión Bel de forma

Bel(A) =∑

m(A) =∑

(−1)|A−B|Bel(B),

o sea que son inversas de Möbius, Chateauneuf y Jaray [17.

Además podemos observar, teniendo en uenta el onvexo que genera una a.b.p. m, Cm,

Bel(A) = inf p∈Cmp(A)

Si realizamos esta opera ión sobre ualquier onvexo, podemos obtener una fun ión similar

Bel, que podemos llamar dire tamente f , tal que

f(A) = inf p∈Cp(A),

donde está fun ión f es una apa idad, Chateneu y Jaray [17. Evidentemente, si C es un

onvexo que viene de una eviden ia enton es f = Bel.

Ahora, al ulando su inversa de Möbius, llamémosle m también tenemos:

m(A) =∑

(−1)|A−B|f(B),

f(A) =∑

donde m ahora no tiene por qué ser una a.b.p., es de ir, puede tener valores negativos.

Vamos a denir formalmente los on eptos anteriores y después veremos un ejemplo.

Deni ión 3.5 Llamaremos fun ión apa idad de un onjunto onvexo C sobre un onjunto

nito X, a la fun ión fC obtenida a partir de C mediante la expresión:

fC : ℘(ΩX)→ IR

fC(A) = inf p∈C p(A)

Deni ión 3.6 A la fun ión m obtenida a partir de fC , on respe to a un onjunto onvexo

C sobre un onjunto nito X, por inversión de Möbius, se llamará distribu ión de masas de

C. A los onjuntos A tales que m(A) 6= 0 se le llamará onjuntos fo ales de m.

m : ℘(ΩX)→ IR

m(A) =∑

(−1)|A−B|fC(B),

Por la propia deni ión de m o urre que también

∑A⊆℘(Ω) m(A) = 1 al ser f(X) = 1.

Ejemplo 3.18 Para el onjunto onvexo C tenemos:

f(xi) = 0,∀i ∈ 1, 2, 3,

f(xi, xj) = 0.5,∀i ∈ 1, 2, 3,

f(x1, x2, x3) = 0.5

Con lo que obtenemos

m(xi) = 0,∀i ∈ 1, 2, 3,

m(xi, xj) = 0.5,∀i ∈ 1, 2, 3,

m(x1, x2, x3) = −0.5

De la misma forma que se ha e para eviden ias abreviaremos notando

m(xi) = mi,

m(xi, xj) = mij ,∀i, j ∈ 1, 2, 3,

m(x1, x2, x3) = m123.

Como hemos visto, obtenemos valores negativos que no apare ían en la teoría de la evi-

den ia. Estos valores representan el ex eso de apoyo positivo que obtienen los sub onjuntos

de uno dado. Visto desde el punto de vista de la deni ión de una a.b.p. en la teoría de la

eviden ia, tendría el siguiente sentido: si la eviden ia disponible nos lleva a repartir pesos entre

los sub onjuntos de un onjunto determinado de forma que la suma fuese mayor que uno, ésta

se debería ompensar quitando masa al onjunto que los ontiene. Es de ir, en el aso de C

tendríamos que las masas de mij son todas iguales e igual a 0.5, on lo que la suma de las

masas sería de 1.5. Si estamos en la teoría de la eviden ia una posible solu ión sería normalizar

estas y obtener la eviden ia mij = 13 . Pero la idea que onlleva una asigna ión de masas de un

onjunto onvexo va más allá, ompensa el ex eso pero sin rebajar la masa a ninguno de los

onjuntos itados, simplemente dando masa negativa al super onjunto que los ontiene.

De forma inversa, si tenemos una asigna ión de masas m podemos obtener, al igual que

ha íamos en la teoría de la eviden ia, el onjunto onvexo de donde parte, siguiendo el siguiente

pro edimiento:

Sea X = x1, x2, . . . , xn, sea Sn el espa io de las permuta iones de n elementos, (σi) ∈ Sn,

on i ∈ 1, 2, . . . , n!, ada una de ellas y σji su omponente j−ésima. Enton es tenemos un

total de n! vérti es, uno para ada permuta ión, estable idos de la siguiente forma:

σi → (pσ1i, pσ2

i, . . . , pσn

A|σ1i∈A

i∈ A

i/∈ A

. . . . . .

pσn−1i

A|σn−1

i∈ A

σn−2

i/∈ A

= m(xσni)

Puede o urrir que el onjunto obtenido sea mayor que el que teníamos originalmente, o

di ho de otra forma, puede haber mas de un onjunto onvexo posible ompatible on una

asigna ión de masas determinada, omo podemos ver en el siguiente ejemplo.

Ejemplo 3.19 Sea el onjunto onvexo C sobre X = x1, x2, x3, determinado por los vér-

ti es (0, 0, 1); (0.5, 0.5, 0), que podemos ver en la gura 3.17. Si obtenemos su asigna ión de

masas orrespondiente

tenemos que m13 = m23 = 0.5 y para el resto 0. Si se pro ede a obtener el onvexo a partir de

estos valores, Cm, obtenemos el onvexo determinado por los vérti es

(0.5, 0.5, 0); (0, 0.5, 0.5); (0, 0, 1); (0.5, 0, 0.5),

que podemos ver también en la gura 3.17 y que amplía notablemente al anterior.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 3.17: Conjuntos convexos asociado a los convexos C y Cm del ejemplo 3.19

Nosotros pensamos que en uanto a la no-espe i idad, no existe ninguna varia ión entre los

dos onvexos del ejemplo anterior puesto que no se añade espe i idad, o sea, no hay diferen ia

de impre isión puesto que si partimos de (0, 0, 1) y (0.5, 0.5, 0) los otros valores de los vérti es

de Cm no añaden impre isión. En C hay una masa de valor 1 que se mueve de x3 a x1 y x2

la mitad a ada uno. En Cm tenemos que movemos la misma antidad de masa de la misma

forma de x3 a x1 y x2 pero podemos ha erlo en más etapas, es de ir, de (0, 0, 1) podemos

pasar a (0, 0.5, 0.5) pasando 0.5 de x3 a x2 y después pasarnos de (0, 0.5, 0.5) a (0.5, 0.5, 0)

pasando 0.5 de x3 a x1. También podemos pasar de (0, 0, 1) a (0.5, 0.5, 0) pasando ahora por

(0.5, 0, 0.5), pasando primero 0.5 de x3 a x1 y después la misma antidad de x3 a x2. Si estamos

llevando la misma antidad de masa entre las mismas variables no añadimos impre isión si lo

realizamos en dos pasos, teniendo en uenta que el máximo traspaso en C y Cm es el mismo.

El problema nos surge al observar el tamaño y dimensión de ambos onjuntos, pero re or-

demos que algo similar o urría en la teoría de la eviden ia al apli ar la fun ión I.

A partir de aquí podemos denir una fun ión general de no-espe i idad sobre onjuntos

onvexos, ampliando la fun ión I de Dubois y Prade, es de ir, la ya ampliada U-un ertainty:

Deni ión 3.7 Sea C un onjunto onvexo sobre un onjunto nito X y sea m su asigna ión

de masas aso iada. Denimos una fun ión general de no-espe i idad sobre C de la forma

IG(C) =∑

A⊆ΩX

m(A) log(|A|)

Evidentemente IG(C) = IG(Cm) donde Cm es el onjunto onvexo aso iado a la asigna ión

de masas m.

Claro está que IG(Cm) = I(m) uando m es una a.b.p., ompletándose así di ha amplia ión.

Ahora para C tenemos que

IG(C) =3

2log(2)− 1

2log(3)

tal y omo obteníamos de la apli a ión de la propiedad de I

I(C1 ∪ C2) = I(C1) + I(C2)− I(C1 ∩ C2).

En ambio, para el onvexo determinado por los vérti es (13 , 1

3 , 13 ); (0.5, 0.5, 0), que tenía

la misma máxima diferen ia de entropías que C tenemos que al ulando su asigna ión de

masas y posteriormente la fun ión IG tenemos un valor de

13 log(2) < IG(C), lo que es más

razonable.

Vamos a utilizar una deni ión de independen ia distinta, la amplia ión de la deni ión

utilizada para a.b.p., motivada por el uso de asigna iones de masas. Veremos en la se ión

5 la rela ión existente entre los tipos de deni iones de independen ia y las fun iones de

in ertidumbre utilizadas.

Previamente vamos a exponer un lema que llamaremos lema de onvexos, que posterior-

mente ne esitaremos, donde veremos la rela ión existente entre los onvexos que se obtienen

al ampliar uno dado por una asigna ión de masas y luego marginalizar y el que se obtiene

inter ambiando del orden de estas opera iones, además se distinguirá entre dos formas de

marginaliza ión. Con este lema quedarán laras las dudas sobre los onvexos que se pueden

obtener por distintos aminos.

Lema 3.3 Sea C un onjunto onvexo sobre X × Y on X,Y nitos. Sea f su fun ión a-

pa idad y m su asigna ión de masas, donde los elementos fo ales de esta son onjuntos de la

forma AX × AY , on AX ⊆ X y AY ⊆ Y . Denotaremos a

↓Xa la marginaliza ión sobre el

onjunto X, así C↓X ≡ CX y m↓X ≡ mX on las nota iones utilizadas hasta aquí. Enton es

podemos obtener los onjuntos onvexos siguientes:

(1) C −→ f ←→ m −→ Cm 7−→ C↓Xm

(2) C 7−→ C↓X = CX −→ fCX←→ mCX

−→ CmCX

(3) C −→ f ←→ m 7−→ mX ←→ fmX−→ CmX

Donde se indi an: C −→ f la opera ión de obten ión de la apa idad aso iada a C; f ←→ m

la obten ión de m la inversa de Möbius de f ; C 7−→ CX y m 7−→ mXlas opera iones de

marginaliza ión, siendo en el aso de m igual que la obtenida para una a.b.p. y nalmente

indi amos por f ←→ m −→ Cm o m ←→ f −→ Cm a la obten ión del onvexo ampliado de

Enton es los onvexos obtenidos de (1), (2) y (3) son iguales

Demostra ión:

(i) C↓Xm = CmCX

Sea p ∈ Cm enton es p↓X ∈ C↓Xm , vamos a ver que p↓X ∈ CmCX

y vi eversa.

Existe la distribu ión de probabilidad qA ∈ Cm para ada A ⊆ X × Y tal que f(A) = qA(A),

enton es

p(A) ≥ qA(A),∀A = AX ×AY ⊆ X × Y

⇐⇒∑

(x,y)∈A

pxy ≥∑

(x,y)∈A

qAxy ⇐⇒

y∈AY

(x,y)∈A

pxy ≥∑

y∈AY

(x,y)∈A

⇐⇒ p↓X(AX) ≥ qA↓X(AX) ≥ fCX(AX)⇐⇒ p↓X ∈ CmCX

(ii) CmCX= CmX

Sea p↓X ∈ CmCXenton es tenemos que

p↓X ∈ CmCX⇐⇒ p ∈ Cm ⇐⇒ p(A) ≥ f(A),∀A = AX ×AY ∈ X × Y

⇐⇒ p(A) ≥∑

m(B), B = BX ×BY ∈ X × Y ⇐⇒ (p(A))↓X ≥

⇐⇒ p↓X(AX) ≥∑

BX⊆AX

mX(BX)⇐⇒ p↓X ∈ CmX

A ontinua ión la deni ión de independen ia, que generaliza la que teníamos para a.b.p.

Deni ión 3.8 Sea C un onjunto onvexo sobre X×Y , on X,Y onjuntos nitos. Sea m la

asigna ión de masas de C on elementos fo ales A×B, on A ⊆ ΩX y B ⊆ ΩY . Sean CX y CY

los onvexos marginales de C sobre X e Y respe tivamente. Diremos que hay independen ia

de masas de X e Y bajo C si y sólo si:

m(A×B) = mX(A) ·mY (B)

on mX y mY las asigna iones de masas de CX y CY respe tivamente.

Propiedades

Con la anterior nota ión IG veri a las siguientes propiedades

Proposi ión 3.8 Vale ero para distribu iones de probabilidad.

Demostra ión: Su demostra ión es inmediata puesto que m(A) = 0 ∀A ⊆ X tal que |A| ≥ 2.

Proposi ión 3.9 Es monótona, es de ir, si C y C ′son dos onjuntos onvexos de distribu-

iones de probabilidad sobre el mismo universal nito X tal que C ⊆ C ′enton es se veri a

que IG(C) ≤ IG(C ′).

Demostra ión: Es onse uen ia inmediata del lema 3.8 del Apéndi e.

Proposi ión 3.10 Está bien denida, IG(C) ≥ 0, ∀C onjunto onvexo de distribu iones de

probabilidad sobre X.

Demostra ión: Por las propiedades 1 y 2 anteriores.

Proposi ión 3.11 Al anza su máximo para la ignoran ia total on rango en [0, ln(n)], donde

n = |X| .

3.6. Aditividad de las funciones de incertidumbre 133

Proposi ión 3.12 Es aditiva, es de ir, sea C un onjunto onvexo de distribu iones de pro-

babilidad sobre un universal nito X×Y tal que halla independen ia de masa bajo C enton es

se veri a que IG(C) = IG(CX) + IG(CY ).

Demostra ión: Es bási amente la misma demostra ión que se realiza para I, Dubois y Prade

Proposi ión 3.13 Sea C un onjunto onvexo de distribu iones de probabilidad sobre el on-

junto nito X tal que C = αC1 + (1 − α)C2 , on α ∈ [0, 1] y C1, C2 dos onjuntos onvexos

de distribu iones sobre X. Enton es

IG(C) = αIG(C1) + (1− α)IG(C2)

Demostra ión: Usando la nota ión habitual, tenemos que

fC(A) = inf P∈C P (A) = α inf P∈C1P (A) + (1− α)inf P∈C2P (A),

por lo que

mC(A) = αmC1(A) + (1− α)mC2(A),∀A ∈ ΩX

IG(C) = αIG(C1) + (1− α)IG(C2)

3.6. Aditividad de las fun iones de in ertidumbre

En los apartados anteriores se ha trabajado on distintas deni iones de independen ia

para demostrar la aditividad de las fun iones G∗, G∗ e IG sobre onjuntos onvexos. Vamos

a dedi ar esta se ión para ver la rela ión existente entre las deni iones de independen ia y

di has fun iones.

Como se puede ver en Couso, Moral y Walley [23, las deni iones de independen ia son

muy variadas y ada una apli able a una situa ión. Nosotros hemos utilizado la deni ión

de independen ia fuerte (vista anteriormente) y la de independen ia basada en masas ( omo

amplia ión de la denida para eviden ias:

Partimos de C onjunto onvexo sobre X × Y , CX y CY onjuntos onvexos marginales

sobre los onjuntos X e Y nitos.

Deni ión 3.9 Independen ia fuerte

Si C = CH(CX × CY ), donde CH expresa el as o onvexo, diremos que se produ e inde-

penden ia fuerte bajo C.

Deni ión 3.10 Independen ia basada en masas

Sea m la asigna ión de masas del onjunto onvexo C sobre X × Y , on X,Y nitos, es

de ir m(A) =∑

D⊆A(−1)|A−D|f(D) on f(D) = inf p∈C p(D) (inversas de Möbius) y sean

mX y mY las marginales de m sobre X e Y respe tivamente. Enton es diremos que se produ e

independen ia basada en masas bajo C si ∀A×B, A ⊆ X, B ⊆ Y tenemos que

m(A×B) = m(A) ·m(B),

donde m(D) = 0,∀D 6= A′ ×B′ on A′ ⊆ X y B′ ⊆ Y

Notaremos a las deni iones anteriores omo DEF I1 y DEF I2 respe tivamente.

Teníamos que bajo DEF I1 son aditivas G∗y G∗ y bajo DEF I2 es aditiva IG. A ontinua ión

veremos otras impli a iones.

Para ver que IG es aditiva bajo DEF I1, de una forma espe ial omo veremos, ne esitamos

del siguiente lema:

Lema 3.4 Sea C onjunto onvexo sobre X nito y sea f su fun ión de apa idad aso iada de

la forma f(A) = inf p∈Cp(A), on A ⊆ X. Enton es se veri a que di ho inferior se al anza

en un probabilidad extrema de C, es de ir, ∀A ⊆ X, f(A) = pA(A) on pA algún vérti e de C.

Demostra ión: Es evidente puesto que pA es una ombina ión onvexa de los vérti es de C,

vim1 , por lo que pA(A) debe ser mayor o igual que el menor valor del onjunto vi(A)m1 .

Proposi ión 3.14 Sea C = CH(CX×CY ). Sea m la fun ión de masas de C tal que m(D) =

0,∀D ⊆ CX × CY y D 6= A × B on A ⊆ X y B ⊆ Y . Enton es bajo DEF I1 se veri a que

IG es aditiva

IG(C) = IG(CX) + IG(CY )

Demostra ión: Sea m′ = mX ×mY , on mX y mY las marginales de m sobre X e Y respe -

tivamente. Sea f la fun ión apa idad de C y fX y fY las fun iones marginales sobre CX y

f(A×B) = inf p∈Cp(A×B)

fX(A) = inf pX∈CXpX(A)

fY (B) = inf pY ∈CYpY (B).

Previamente demostremos las siguientes impli a iones ne esarias:

(1) m′ = mX ×mY =⇒ f ′ = fX · fY

(2) C = CH(CX ×CY ) =⇒ f = fX · fY

siendo f ′la apa idad aso iada a m′

Para demostrar (1) basta on ver lo siguiente:

f ′(A×B) =∑

A′×B′⊆A×B

m′(A×B) =∑

A′⊆A,B′⊆B

mX(A) ·mY (B) =

A′⊆A

mX(A) ·∑

B′⊆B

mY (B) = fX(A) · fY (B).

Para demostrar (2) ne esitamos usar el lema 3.4 anterior:

f(A×B) = inf p∈C p(A×B) = inf vj∈V(C) vj(A×B),

on V(C) el onjunto de los vérti es de C, pero al ser C = CH(CX × CY ) todos los vérti es

son de la forma ri · sj siendo ri y sj vérti es de CX y CY respe tivamente. Luego

f(A×B) = inf p=ri·sj∈C ri · sj(A×B) = inf p=ri·sj∈C ri(A) · sj(B) =

= inf ri∈CXri(A) · inf sj∈CY

sj(B) = fX(A) · fY (B)

Por tanto, f ′ = f en los onjuntos de la forma A×B de X×Y (en los re tángulos), puesto

f ′(A×B) = fX(A) · fY (B) = f(A×B).

Por tanto, las fun iones de masas m y m′también oin iden:

m(A×B) =∑

A′×B′⊆A×B

(−1)|A×B−A′×B′|f(A′ ×B′) =

A′×B′⊆A×B

(−1)|A×B−A′×B′|fX(A′) · fY (B′) =

A′×B′⊆A×B

(−1)|A×B−A′×B′|f ′(A′ ×B′) = m′(A×B)

Por onsiguiente, tenemos que:

IG(C) = IG(Cm) = IG(Cm′) =

= IG(CmX) + IG(CmY

) = IG(CX) + IG(CY ),

utilizando la aditividad de IG bajo DEF I2 y el lema de onvexos.

Proposi ión 3.15 Bajo DEF I2 se veri a que G∗es aditiva

G∗(Cm) = G∗(CmX) + G∗(CmY

Demostra ión: Utilizaremos la desigualdad de Gibbs para tener que G∗es subaditiva en el

siguiente sentido:

Supongamos

G∗(Cm) = H(p),

enton es

G∗(Cm) = H(p) =∑

pxy log(pxy) ≤∑

pxy log(px · py) =

on px y py las marginales de pxy sobre CX y CY respe tivamente,

= H(px) + H(py) ≤ G∗(CmX) + G∗(CmY

puesto que G↓Xm = CmX

y G↓Ym = CmY

por el lema de onvexos.

Nos queda demostrar la otra desigualdad: sean G∗(CmX) = H(pX) y G∗(CmY

) = H(pY ),

tenemos que

G∗(Cm) ≥ H(pX · pY ) = H(pX) + H(pY ) = G∗(CmX) + G∗(CmY

faltando sólo demostrar que pX · pY ∈ Cm, pero tenemos que es la misma demostra ión que

realizan Harmane y Klir [39 para onvexos provenientes de eviden ias. Simplemente hay que

ambiar Bel por f .

Proposi ión 3.16 Bajo DEF I2 se veri a que

G∗(Cm) ≤ G∗(CmX) + G∗(CmY

Demostra ión: Sea H(p1) = G∗(CmX) y H(p2) = G∗(CmY

) por la DEF I2 tenemos que

p1 · p2 ∈ Cm. Ahora

G∗(Cm) ≤ H(p1 · p2) = G∗(CmX) + G∗(CmY

La otra desigualdad ne esaria para que G∗ sea aditiva bajo DEF I2 no tiene por qué

veri arse tal y omo podemos ver en el siguiente ejemplo:

Ejemplo 3.20 Sean los onjuntos nitos X = x1, x2 e Y = y3, y4, y sean la a.b.p.

siguientes sobre X e Y respe tivamente:

mX1 = mX

mY3 = mY

Si obtenemos m sobre X × Y tal que m = mX ·mYtenemos que, on la nota ión habitual:

mij =1

mi34 =2

m12j =2

m1234 =4

∀i ∈ 1, 2; j ∈ 3, 4.

Ahora, obteniendo los vérti es de CmX y CmY , así omo los de Cm, tenemos que

G∗(CmX ) = G∗(CmY ) = H(3

4) = 0.623,

G∗(Cm) = H(12

16, 0, 0) = 0.623

Con lo que, bajo DEF I2, tenemos que

G∗(C) < G∗(CmX ) + G∗(CmY ).

Por tanto, sólo IG es una fun ión de no-espe i idad que es aditiva bajo ualquiera de las

deni iones de independen ia, aunque bajo la independen ia fuerte se usa una versión más

débil de esta propiedad omo vimos en la proposi ión 3.14. De todas maneras, pare e que

IG es la mejor forma de medir todo este tipo de in ertidumbre que representa un onjunto

onvexo en general. La fun ión G∗también es aditiva bajo las dos deni iones, sin modi a ión

alguna, reforzándose la idea de que es la medida de in ertidumbre on mejores propiedades

matemáti as.

3.7. Medidas de in ertidumbre total para onjuntos onvexos

Hemos visto que de forma individual ada una de las medidas expuestas anteriormente de

no-espe i idad y entrópi as no son su ientes para medir oherentemente la in ertidumbre.

De alguna manera son medidas que ne esitan omplementarse. Vamos a exponer, al igual que

hi imos para la teoría de la eviden ia, una medida de in ertidumbre total sumando una de

ada tipo anterior para obtener una que puede usarse para medir la in ertidumbre aso iada a

un onjunto onvexo teniendo en uenta tanto la impre isión omo la entropía.

Las prin ipales propiedades que, de a uerdo on todo lo expuesto en puntos anteriores, debe

veri ar una medida de in ertidumbre total para onjuntos onvexos deben ser:

(1) Coin ide on la entropía de Shannon para distribu iones de probabilidad.

(2) Es ontinua.

(3) Es monótona.

3.7. Medidas de incertidumbre total para conjuntos convexos 139

(4) Es aditiva.

Proponemos, por las propiedades de las medidas de entropía y no-espe i idad, las dos

siguientes medidas:

TU1 = G∗ + IG

TU2 = G∗ + G∗ −G∗ = 2G∗ −G∗

Como sabemos, sólo la fun ión TU1 es aditiva bajo ualquiera de las dos deni iones de

independen ia expuestas.

Podíamos pensar que queda añadir que fuese subaditiva, pero omo vimos una fun ión de

no-espe i idad para onjuntos onvexos no tiene por qué ser subaditiva, por lo que nos deja la

duda de que lo sea la fun ión total. De he ho, en el ejemplo 3.4 que utilizamos para ver que no

la no-espe i idad no debe ser subaditiva, tampo o lo son las dos medidas de in ertidumbre

total expuestas, pues obteniendo las asigna iones de masas de los onjuntos onvexos, las

fun iones G∗, G∗ e IG tenemos que:

TU1(C) = 1.362 > TU1(CX) + TU1(CY ) = log(2) + 0.611 = 1.304

TU2(C) = 1.328 > TU1(CX) + TU1(CY ) = log(2) + 0.611 = 1.304

Esto no impli a que no se pueda llegar a obtener otra fun ión de in ertidumbre total que

si sea subaditiva, pero de la forma omo nosotros la planteamos es difí il que lo sea, al tener

un fa tor que no tiene que ser subaditivo omo vimos en el ejemplo 3.4.

La fun ión TU1 sigue siendo subaditiva para probabilidades, al ser ero su no-espe i idad

y oin idir on la entropía de Shannon que si lo es. También para eviden ias, pues oin ide

on la fun ión de Maeda e I hihashi [69 en este tipo de onjuntos, donde si veri a di ha

propiedad.

Aunque no sea aditivo, el fa tor Kullba k, visto en el apítulo 2, puede servirnos también

omo omplemento para una medida de in ertidumbre total sobre onjuntos onvexos, donde

también se veri a que es distinta de ero para onjuntos que ontienen a la uniforme y vale

ero para el resto.

Este fa tor distingue, omo sabemos, entre las distintas situa iones de una misma gura que

represente a dos onvexos distintos, ya provengan de eviden ias omo de intervalos o ualquier

otro tipo de onvexos. Podemos ver el ejemplo siguiente un aso de lo que hablamos

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Ejemplo 3.21 Sean los siguientes onjuntos de intervalos de probabilidad sobre la variable

X on valores en ΩX = x1, x2, x3

L′ =

15]; [

L produ e un onjunto onvexo C1 on vérti es

(0.4, 0.2, 0.4); (0.2, 0.4, 0.4); (0.4, 0.4, 0.2)

y L′produ e un onjunto C2 on vérti es

Se pueden ver en la gura 3.18.

Si llamamos m,m′a las asigna iones de masas obtenidas de C1 y C2 respe tivamente,

tenemos que

mi = 0.2, mij = 0.2, m123 = −0.2;

3, m2 = m3 =

15, mij = 0.2, m123 = −0.2;

∀i, j ∈ 1, 2, 3. Lo que produ e que

IG(C1) = IG(C2) = 0.6 log(2)− 0.2 log(3) = 0.196

G∗(C1) = G∗(C2) = log(3)

Pero C2 pare e que nos indi a una preferen ia por x1 siendo los onvexos del mismo tamaño,

por lo que intuitivamente debería tener menos in ertidumbre. Apli ando el fa tor Kullba k, K,

a ambos onjuntos tenemos:

K(C1) = 0.010

K(C2) = 0

lo que ya pare e más intuitivo.

En ambio, si apli amos la fun ión TU2 sobre di hos onjuntos tenemos que

TU2(C1) = 2 log(3)− 1.055 = 1.142

TU2(C2) = 2 log(3)− 0.970 = 1.227

y aun apli ando el fa tor K tendríamos que

TU2(C1) < TU2(C2)

lo que no pare e del todo orre to.

Ambas fun iones, TU1 y TU2, son matemáti amente orre tas según las propiedades que

veri an, pero pare e que también le falta algún omplemento para ser intuitivamente a ep-

tables. En el aso de TU1 el fa tor Kullba k puede ser ese buen omplemento, pero en el aso

de TU2 queda pendiente obtenerlo.

3.8. Con lusiones

Partiendo de la teoría de la eviden ia, hemos estudiado los tipos de in ertidumbre en on-

trados en un onjunto onvexo de distribu iones de probabilidad en general, llegando a la

on lusión de que nos en ontramos los mismo tipos que teníamos en la primera. Se han jus-

ti ado ambos tipos de in ertidumbre, entropía y no-espe i idad, a través de ejemplos, en

los que in luso hemos visto que tanto una omo la otra no son válidas de forma individual

para medir toda la in ertidumbre que onlleva representar la informa ión utilizando onjuntos

onvexos en general.

Se han estudiado las propiedades que debe umplir ualquier medida de in ertidumbre

de tipo entrópi o, no-espe í o o global y hemos visto que, en general, deben veri ar las

propiedades que se veri aban en la teoría de la eviden ia, donde se ampliaba el on epto

de medida de in ertidumbre de la teoría de la probabilidad. Hemos justi ado que sólo la

subaditividad no tiene abida en el onjunto de propiedades bási as que debe umplir una

medida de no-espe i idad para onjuntos onvexos en general, aunque si la tenía en la teoría de

la eviden ia. Pues para onjuntos onvexos nos podemos en ontrar asos, que a nivel parti ular

para eviden ias no son posibles y donde sería una ontradi ión plantearnos tal propiedad.

Después de tener en uenta el origen de la in ertidumbre de tipo entrópi o, se han analizado

medidas de entropía tales omo las del entro de masas y entropía media de los vérti es de un

onjunto onvexo, en ontrando que no veri an la propiedad bási a de la ontinuidad, aunque

tengan un signi ado ade uado. Hemos visto que la amplia ión del máximo de la entropía

de Shannon para onvexos en general umple todas las propiedades bási as de la entropía, lo

que ha e que sea una ex elente medida para tal n. Pensando en la apli a ión de esta medida

sobre onjuntos de intervalos de probabilidad, hemos expuesto un algoritmo que al anza, on

una omplejidad uadráti a, el máximo de la entropía de Shannon para di hos onjuntos de

probabilidades impre isas, al igual que existía en la teoría de la eviden ia.

Análogamente, se han analizado medidas de no-espe i idad, partiendo de su signi ado

para onjuntos onvexos de distribu iones de probabilidad, siguiendo dos aminos posibles:

basarnos en el tamaño del onvexo y en la varia ión entrópi a del onvexo. En uanto al

primer amino, se han visto medidas rela ionadas on el volumen del onjunto onvexo, donde

nos hemos en ontrado on el problema de la no ontinuidad. Hemos analizado la medida

HL, que exponen Klir y Wierman, y hemos visto que umple las propiedades bási as de la

no-espe i idad pero de forma débil. Es una medida que se basa también en la medida de

Lebegue del onvexo. En uanto al segundo amino, hemos visto que la máxima diferen ia de

entropías es una buena medida de no-espe i idad desde el punto de vista matemáti o, pues

umple las propiedades bási as, aunque en el umplimiento de la aditividad depende de la

deni ión de independen ia utilizada. Esta fun ión no tiene un buen omportamiento, pues

hemos visto mediante ejemplos que no es totalmente a eptable su utiliza ión en algunos asos.

Finalmente, siguiendo el prin ipio de in ertidumbre invariante, hemos partido de la medida de

no-espe i idad de Dubois y Prade para la teoría de la eviden ia, que a su vez es amplia ión

de la medida de Hartley, y hemos ampliado ésta para onvexos en general, apoyándonos en

la fun ión inversa de Möbius. Hemos demostrado que esta fun ión es apaz de umplir un

gran número de propiedades bási as para este tipo de fun iones. Nos hemos aprove hado de la

3.9. Apéndices 143

fun ión in rementos nitos para la demostra ión de di has propiedades y hemos des ubierto a

ésta omo una interesante herramienta para tales propósitos, pues también se ha utilizado para

obtener el valor del poliedro probabilísti o, que queríamos usar para normalizar el volumen de

un onvexo. En los apéndi es que vienen a ontinua ión podemos ver el trabajo realizado on

esta interesante fun ión.

Finalmente se han denido fun iones de in ertidumbre total que ne esitaremos utilizar en

el apítulo 5.

A lo largo del apítulo hemos visto que podemos plantearnos interesantes uestiones a la

hora de trabajar on onjuntos onvexos de distribu iones de probabilidad. Es un ampo en el

nos podemos en ontrar grandes posibilidades de trabajo, omo se ha visto en las propiedades

que hemos dejado abiertas para trabajos futuros. Volveremos a enumerarlas en las on lusiones

nales y trabajos futuros de esta memoria.

3.9. Apéndi es

3.9.1. Apéndi e A: Propiedades del operador diferen ias su esivas

Vamos a analizar algunas propiedades del operador diferen ias su esivas sobre una fun ión

real de variable real f , es de ir,

∆k+1h f(x) = ∆1

h(∆khf(x)); h ∈ IR y k ∈ IN

donde ∆1hf(x) = f(x + h)− f(x) y ∆0

hf(x) = f(x)

Lema 3.5 Este operador es lineal, es de ir:

(1) ∆kh [f(x) + g(x)] = ∆k

hf(x) + ∆khg(x).

(2) ∆kh [λf(x)] = λ∆k

hf(x), λ ∈ R.

Lema 3.6 Satisfa e la siguiente igualdad:

∆khf(x) =

(−1)k−i(

)f(x + ih)

Demostra ión: Por indu ión sobre k

∆2hf(x) = f(x + 2h) − f(x + h)− (f(x + h)− f(x)) = f(x + 2h) − 2f(x + h) + f(x).

∆3hf(x) = f(x + 3h)− 2f(x + 2h) + f(x + h)− [f(x + 2h)− 2f(x + h) + f(x)]

= f(x + 3h)− 3f(x + 2h) + 3f(x + h)− f(x).

Ahora,

∆k+1h f(x) = ∆1

h(∆khf(x)) =

k∑i=0

(−1)k−i(ki

)f(x + (i + 1)h) −

k∑i=0

(−1)k−i(ki

)f(x + ih) =

= −(−1)k(k0

)f(x) +

[(−1)k

)f(x + h)− (−1)k−1

)f(x + h)

+[(−1)k−1

)f(x + 2h)− (−1)k−2

)f(x + 2h)

]+ ... + (−1)k−k

)f(x + (k + 1)h)

= (−1)k+1(k0

)f(x) + (−1)k+1−1

)f(x + h) + (−1)k+1−2

)f(x + 2h) + ...+

+(−1)k+1−(k+1)(

k+1k+1

)f(x + (k + 1)h) =

k+1∑i=0

(−1)k+1−i(

)f(x + ih).

Lema 3.7 Sea f(x) = ln(x), h = 1 y x ≥ 1, enton es ∆2k1 f(x) ≤ 0 y ∆2k+1

1 f(x) ≥ 0 ∀k.

Demostra ión: Sabemos que las derivadas de f(x) veri an que f (2k)(x) ≤ 0 y f (2k+1)(x) ≥ 0.

Enton es f (2k)es siempre una fun ión ón ava y f (2k+1)

una fun ión onvexa.

Sea g1(x) = ∆21f(x) = f(x + 2) − 2f(x + 1) + f(x). Puesto que f ′′

es fun ión ón ava

tenemos que

2f ′′(x + 2) +

2f ′′(x) ≤ f ′′(x + 1)

g′′1 (x) = f ′′(x + 2)− 2f ′′(x + 1) + f ′′(x) ≥ 0.

Por ello g1(x) es una fun ión ón ava.

Repitiendo el pro eso, tenemos que

g(2k+2)1 (x) =

f (2k+2)(x + 2)− 2f (2k+2)(x + 1) + f (2k+2)(x) ≤ 0, ∀k

y g(2k)1 (x) es una fun ión ón ava.

De la misma forma,podemos denir gj(x) = ∆21gj−1(x) y enton es g

(2k)j (x) serán fun iones

ón avas ∀k y j = 1, 2, ..., donde llamaremos g0(x) = f(x).

Por la propiedad de la on avidad,

∆21f(x) = f(x + 2)− 2f(x + 1) + f(x) ≤ 0

∆41f(x) = ∆2

1g1(x) = g1(x + 2)− 2g1(x + 1) + g1(x) ≤ 0

3.9. Apéndices 145

....................................................................................

∆2k1 f(x) = ∆2

1gk−1(x) = gk−1(x + 2)− 2gk−1(x + 1) + gk−1(x) ≤ 0.

Usando un argumento similar tenemos que g(2k+1)j (x) son fun iones onvexas, ∀k, j, y ade-

g(2k+1)j (x) =

g(2k+1)j−1 (x + 2)− 2g

(2k+1)j−1 (x + 1) + g

(2k+1)j−1 (x) ≥ 0.

De aquí obtenemos que g(2k)j son fun iones no de re ientes, ∀k, j.

Naturalmente, si w(x) es una fun ión no de re iente tenemos que ∆11w(x) ≥ 0. Ahora

∆2k+11 f(x) = ∆1

1(∆2k1 f(x)) = ∆1

1(gk−1(x)) ≥ 0

Lema 3.8 . Sean f, f ′dos apa idades monótonas sobre un onjunto nito X. Sean m,m′

sus inversas de Möbius respe tivamente. Si existe A ∈ X tal que f(A) − ǫ = f ′(A) , ǫ > 0, y

f(B) = f ′(B) para B 6= A, enton es

m(C) ln(|C|) ≤∑

m′(C) ln(|C|)

Demostra ión: Es fá il probar que

m′(C) ln(|C|)−∑

m(C) ln(|C|) =

−ǫ∑

(−1)|C−A| ln(|C|).

Si denotamos x = |A| y N = |X| − x, tenemos que:

(−1)|C−A| ln(|C|) =

(−1)i

ln(x + i) =

(−1)NN∑

(−1)N−i

ln(x + i) =

(−1)N∆N1 ln(x),

por el lema 3.6.

Ahora, por el lema 3.7

m′(C) ln(|C|)−∑

m(C) ln(|C|) =

(−ǫ)(−1)N∆N1 ln(x) ≥ 0.

La propiedad de la monotonía de IG es onse uen ia inmediata de este lema 3.8

Para simpli ar usaremos ∆npara expresar ∆n

Lema 3.9 Sea la fun ión f(x) = xn, enton es

∆kxn+1 = (x + k)∆kxn + ∆k−1xn

Demostra ión: Por el lema 3.6 tenemos

(x + k)∆kxn + ∆k−1xn = (x + k)k∑

(−1)k−i(

)(x + i)n+

k−1∑

(−1)k−1−i(

k−1i

)(x + i)n =

usando que k(

k−1i

)(k − i) y sa ando y sa ando fa tor omún tenemos

=k−1∑i=0

(−1)k−i(x + i)n [x + k − (k − i)] + (x + k)(x + k)n =

i=0(−1)k−i

)(x + i)n+1 = ∆kxn+1.

3.9. Apéndices 147

Esta propiedad se puede usar para demostrar que Tk,n+1 = Tk−1,n+kTk,n, on Tk,n = ∆kf(0)k!

números de Stirling.

Lema 3.10 . ∆1(f(x)g(x)) = f(x + 1)∆1g(x) + g(x)∆1f(x)

Demostra ión:

∆1(f(x)g(x)) = f(x + 1)g(x + 1)− f(x)g(x) =

= f(x + 1)g(x + 1)− f(x + 1)g(x) + f(x + 1)g(x) − f(x)g(x) =

= f(x + 1)∆1g(x) + g(x)∆1f(x)

Lema 3.11 ∆n+1xn = 0.

Demostra ión: Usando el lema 3.5 e indu ión sobre n.

Lema 3.12 ∆n−1xn−1 = (n− 1)!

Demostra ión: Por los lemas 3.6 y 3.7

∆n−1xn−1 = (x + n− 1)∆n−1xn−2 + (n− 1)∆n−2xn−2 =

= (n − 1)∆n−2xn−2 = ... = (n − 1)(n − 2)...2∆1x = (n− 1)!

Lema 3.13 (n − 1)! =n∑

i=1(−1)n−i

(n−1i−1

)(i− 1)n−1

Demostra ión: Sea f(x) = xn−1. Enton es por los lemas 3.6 y 3.11 y para x = 0 tenemos:

(n − 1)! = ∆n−1f(0) =n−1∑i=0

(−1)n−1−i(n−1i

)f(i) =

=n−1∑i=0

(−1)n−1−i(n−1i

)in−1 =

n∑i=1

(−1)n−i(n−1i−1

)(i− 1)n−1

Lema 3.14

n∑i=1

(−1)n−i(i−1)n−1

(n−i)!(i−1)! = 1

Demostra ión:

n∑i=1

(−1)n−i(i−1)n−1

(n−i)!(i−1)! =n∑

i=1(−1)n−i(i− 1)n−1

(n−1i−1

(n−1)! =

= 1(n−1)!

n∑i=1

(−1)n−i(i− 1)n−1(n−1i−1

utilizando el lema 3.6

3.9.2. Apéndi e B: Cál ulo del volumen del poliedro probabilísti o

Presentamos el ál ulo de volumen del n-1 poliedro probabilísti o sobre IRn, es de ir, el

onjunto PPn =

(xi) ∈ IRn |

n∑i=1

xi = 1; xj ≥ 0, ∀j = 1..n

. Apli aremos el algoritmo de

Lawren e [68 que se basa en la rela ión de Gram para politopos onvexos, aunque nosotros la

usaremos sobre poliedros simples.

Puesto que el poliedro probabilísti o en IRntiene dimensión n-1, trabajaremos sobre IRn−1

on la misma métri a y usaremos el algoritmo de Lawren e.

Como hablamos anteriormente, seria natural pensar que la no-espe i idad de un poliedro

onvexo está dire tamente rela ionada on su volumen. Nuestro objetivo aquí será el de al ular

el volumen del poliedro probabilísti o para utilizarlo omo normaliza ión a la hora de expresar

di ho valor.

Algoritmo de Lawren e

Lawren e [68 presenta un algoritmo para al ular el volumen de un poliedro simple basán-

dose en la expresión ombinatoria de la rela ión de Gram para politopos onvexos. Vamos a

resumir este método que posteriormente usaremos.

Sea P ⊆ IRnun poliedro n-dimensional. Sea P el onjunto de solu iones al sistema nito

de desigualdades lineales,

P =x ∈ IRn : ri(x) = at

ix− bi ≥ 0 ; 1 ≤ i ≤ m

donde las ai y las bi son número reales. Sea V el onjunto de vérti es de P . Supongamos que

P está limitado y que para ada vérti e v ∈ V , el número de índi es i tal que ri(v) = 0 es n.

Enton es P es un politopo simple. Sea f(x) = ctx + d, on c ∈ IRny d ∈ IR, tal que f no es

onstante sobre ada arista de P.

Para ada vérti e de V , sea

3.9. Apéndices 149

Nv =f(v)n

n!∂vγ1...γn,

donde, si los índi es de la onstru ión anterior que se unen en v son i1, ..., in, enton es γ1, ..., γn

son tales que c = γ1ai1 + γ2ai2 + ... + γnain y ∂v es el valor absoluto del determinante de la

matriz n× n, on olumnas ai1, ..., ain . Enton es el volumen de P es

vol(P ) =∑

Volumen del Poliedro Probabilísti o

Demostraremos que el volumen del poliedro probabilísti o sobre IRnvale

(n−1)! .

Sabemos que el poliedro probabilísti o tiene el siguiente onjunto de vérti es

c1(1, 0, .., 0); c2(0, 1, .., 0); ..; cn(0, 0, .., 1)

que pertene en al hiperplano H : x1 + x2 + ... + xn = 1. Teniendo en uenta que IRnes un

espa io métri o, ha emos un ambio de base para trabajar en H, es de ir, en IRn−1.

Tomamos el siguiente referen ial ortonormal B = uin−11 tal que ui ∈ IRn−1

ui =1√

i(i + 1)(−1,−1, ..,−1, i, 0, .., 0),

on el valor i en la posi ión i + 1.

Apli ando el ambio anterior, tenemos los siguientes vérti es de IRn−1

A1(0, 0, 0, .., 0),

A2(2√2, 0, 0, .., 0),

A3(1√2, 2√

6, 0, .., 0),

........................,

Ai(1√2, 1√

6, .., i√

(i−1)i, 0, .., 0) para i ∈ 1, .., n − 1

Esto nos origina el siguiente onjunto de restri iones en R

n−1para el poliedro probabilís-

x1√2

+ x2√6

+ .. + xn−1√(n−1)n

−x1√2

+ x2√6

+ .. + xn−1√(n−1)n

−2x2√6

+ .. + xn−1√(n−1)n

......................−(n−1)xn−1√

(n−1)n≤ 0

Cal ulemos ahora los valores de la expresión de Lawren e.

I. Valores δAi

δAi= |det(C1, .., Ci−1, Ci+1, .., Cn)| = 1√

n, donde Cs ∈ IRn−1

y Cjs es el oe iente de xj en

la anterior restri ión s-ésima.

Podemos observar que los valores δAino dependen de i.

II. Valores f(Ai)

Tomamos f(x) =√

2x1 +√

6x2 + .. +√

(n − 1)nxn−1, para x ∈ IRn−1, y se puede observar

que es no- onstante en ada arista del poliedro probabilísti o.

Enton es f(Ai) = 2i− 2, ∀i = 1, .., n.

III Valores γi

Notemos omo γij, para j = 1, .., n − 1, a los valores γ para el vérti e Ai.

Teniendo en uenta que las restri iones que pasan por el vérti e i son todas las anteriores

ex epto la i-ésima, nos queda que para ada i tenemos:

(n− 1)n

1 −1 0 . . 0

1 1 −2 . . 0

. . . . . .

1 1 1 . . (n − 1)

γin−1

De aquí tenemos que j(j + 1) =j∑

γik − jγi

j+1 si j < i y j(j + 1) =j−1∑k=1

γik − jγi

j > i. Esto origina dos progresiones aritméti as, donde podemos al ular que γij = 2(i − j)

si i 6= j y γii = −2 . Finalmente en ontramos que

n−1∏j=1

γij = (−1)n−i2n−1(n− i)!(i − 1)!.

Usando la expresión de Lawren e

(n− 1)!

2n−1(i− 1)n−1

(−1)n−i2n−1(n− i)!(i − 1)!, ∀i = 1, .., n,

3.9. Apéndices 151

V ol(PP ) =

(n− 1)!

(−1)n−i(i− 1)n−1

(n − i)!(i − 1)!=

(n− 1)!

(−1)n−i

(n− 1)!

n− 1

i− 1

(i− 1)n−1 =

Por el lema 3.14 del Apéndi e A

(n− 1)!1 =

(n− 1)!,

omo queríamos demostrar.

Capítulo 4

Distan ias y medidas de in lusión

sobre onjuntos onvexos de

distribu iones de probabilidad

4.1. Introdu ión

Cuando la informa ión disponible nos ha e elegir un onjunto onvexo de distribu iones de

probabilidad para representarla, pueden surgir situa iones donde di ha representa ión no sea

úni a. En este apítulo queremos modelizar este tipo de situa iones, propor ionando herra-

mientas para omparar las distintas op iones.

Es posible que en ontremos oherentes dos jui ios subjetivos que nos originen onjuntos

distintos a partir de la informa ión disponible. Por ello sería interesante estable er una uan-

ti a ión del pare ido entre distintos tipos de onjuntos onvexos, independientemente de la

que se puede extraer de la diferen ia de la antidad de in ertidumbre que generan, omo ya

hemos visto en el apítulo anterior.

Existen trabajos en la línea de lo que queremos ha er en este apítulo. Trabajos que rela io-

nan el uso de una medida difusa on el de una distribu ión de probabilidad para representar la

informa ión, de Campos [9, y trabajos donde se pretende representar oni tos entre expertos

o fuentes de informa ión que dan lugar a informa iones más impre isas, omo en Walley [101,

Moral y Sagrado [75.

En este apítulo vamos a aproximar una representa ión de informa ión a partir de un

154 Capítulo 4. Distancias y medidas de inclusión sobre conjuntos convexos de distribuciones de probabilidad

onjunto onvexo de distribu iones de probabilidad por su distribu ión de probabilidad más

representativa, al igual que ha e de Campos [9 on las representa iones difusas. Pero nuestro

objetivo prin ipal será estable er una distan ia de in onsisten ia, que también podemos onsi-

derar omo un grado de in oheren ia entre dos representa iones distintas a partir de la misma

informa ión. Dos onvexos son oherentes uando tienen alguna probabilidad en omún. Medi-

remos el grado de in oheren ia uando esto no o urre, omo una medida de la distan ia entre

los mismos. Estable eremos una serie de propiedades bási as de este tipo de medidas apa es

de omparar representa iones on interse ión va ía y veremos que el onjunto de este tipo de

medidas es no va ío, por lo que daremos un aso on reto de medida apaz de umplir on las

propiedades que proponemos para este tipo de fun iones.

Cuando las representa iones a través de onvexos de distribu iones de probabilidad son

oherentes, es de ir, tienen elementos omunes, distribu iones de probabilidad en omún, tam-

bién es interesante omparar di has representa iones. Para tener un riterio equivalen ia o

igualdad en la modeliza ión de la informa ión disponible de dos representa iones vamos a

proponer una distan ia informativa, que nos medirá diferen ia de dos representa iones. Pre-

viamente también estable eremos qué medidas pueden onsiderarse omo grados de in lusión

on el n de medir en qué medida una informa ión de una representa ión está ontenida en

la otra. Veremos que propiedades deben veri ar este tipo de medidas y que existen fun iones

para tal objetivo. Veremos que basándonos en un fun ión grado de in lusión el onjunto de

distan ias informativas es también no va ío.

En la se ión segunda expondremos un onjunto de distan ias sobre IRny sus adapta io-

nes para trabajar on probabilidades on valores en un rango determinado. Las ne esitaremos

posteriormente para estable er distan ias e índi es. En la se ión ter era al ularemos la pro-

babilidad más representativa de un onjunto onvexo de distribu iones de probabilidad, que

puede utilizarse para representarlo a su vez en el aso de querer transformar un onvexo de

probabilidades en una úni a distribu ión para apli ar las herramientas de la teoría de la pro-

babilidad. En la se ión uarta deniremos el primer tipo de distan ia entre onvexos, que

también se puede ver omo un grado de in onsisten ia. En la se ión quinta estable eremos

las ondi iones que debe umplir un grado de in lusión entre onvexos. En la se ión sexta

deniremos la segunda distan ia así omo la rela ión de esta medida on las anteriores. En la

se ión séptima proponemos unos ejemplos prá ti os donde al ularemos todo lo anterior para

dos representa iones distintas de la misma informa ión.

4.2. Distancias entre dos probabilidades 155

4.2. Distan ias entre dos probabilidades

Para denir una fun ión distan ia entre dos probabilidades podemos usar las lási as fun-

iones distan ias sobre IRn. Podríamos elegir ualquiera de las siguientes fun iones: sean

x, y ∈ IRn, x = (x1, x2, . . . , xn) , y = (y1, y2, . . . , yn)

(a) dq(x, y) =(∑n

i=1 |xi − yi|q) 1

q, q ≥ 2 que es la distan ia de Minkowski. Y para q = 2 es

la distan ia eu lídea.

(b) dv(x, y) =∑n

i=1 |xi − yi|

( ) dm(x, y) = max1≤i≤n |xi − yi|

Podemos ver en de Campos [9 que se pueden denir fun iones distan ias sobre distribu iones

de probabilidad, on valores entre [0, 1], de la siguiente forma donde p, p′ son distribu iones de

probabilidad sobre IRn,

(a) Dq(p, p′) =(

∑ni=1 |pi − p′i|q

) 1q , q ≥ 2

(b) Dv(p, p′) = 12

∑ni=1 |pi − p′i|

( ) Dm(p, p′) = max1≤i≤n |pi − p′i|

4.3. Aproxima ión de un onjunto onvexo de distribu iones de

probabilidad por una distribu ión de probabilidad

Como arma de Campos [9, una forma de estudiar la aditividad que ontiene una re-

presenta ión difusa de la informa ión disponible es al ular uánto diere de su distribu ión

de probabilidad más representativa. También denomina a este ál ulo omo el estudio del

omportamiento aditivo de una representa ión difusa.

Si la probabilidad más representativa fuese su iente, se podría utilizar las herramientas

de la teoría de la probabilidad en ese aso, por lo que los on eptos estudiados en apítulos

anteriores se simpli arían bastante.

Al tener determinado un onjunto onvexo de distribu iones de probabilidad por un on-

junto de vérti es, podemos pensar que la distribu ión de probabilidad más representativa de

éste será aquella que minimize su distan ia a los vérti es. Previamente, ne esitamos denir

una distan ia entre un onjunto onvexo de distribu iones y una probabilidad. Ampliando la

deni ión de distan ia difusa, deniremos:

Sea C un onjunto onvexo de distribu iones de probabilidad sobreR

n on vérti es vs , s ∈

1, ...,m y p una distribu ión de probabilidad sobre R

n. Enton es

Dq(C, p) =

|pi − vsi |q) 1

Donde denotaremos por pi a p(xi), y análogamente on vs.

Proposi ión 4.1 Sea C un onjunto onvexo de distribu iones on vérti es vs , s ∈ 1, ...,m.Enton es la distribu ión de probabilidad más er ana a C es p tal que

Demostra ión:

Para mayor simpli idad usaremos la distan ia eu lídea (para otras la demostra ión sería

análoga) y bus aremos la distribu ión p que minimi e

D2(C, p) =

|pi − vsi |2) 1

donde p es una distribu ión de probabilidad sobre IRn

Que es lo mismo que minimizar

|pi − vsi |2

Considerando

f(p1, ..., pn) =

|pi − vsi |2 ,

pro ederemos a minimizar esta fun ión usando derivadas par iales:

∂pi= −2

(pi − vsi ) = 0.

Así que obtenemos sólo una solu ión:

vsi , s ∈ 1, ...,m

4.4. Distancia de inconsistencia entre dos conjuntos convexos de distribuciones de probabilidad 157

Para probar que es un mínimo, al ularemos el Hessiano usando las derivadas segundas:

∂pi∂pj= 0 , i, j ∈ 1, ...,m , i 6= j

∂2pi= 2m , i ∈ 1, ...,m

Con lo que

2m 0 . . 0

0 2m . . 0

. . . . .

0 0 . . 2m

que es laramente denida positiva.

4.4. Distan ia de in onsisten ia entre dos onjuntos onvexos

de distribu iones de probabilidad

Supongamos que tenemos dos informa iones sobre el mismo su eso representadas por dos

onvexos de probabilidad distintos. Una ondi ión de onsisten ia es que tengan al menos una

distribu ión de probabilidad en omún. Cuando esto no o urre, existen distintos grados de

in onsisten ia. Por ejemplo no debe haber la misma in onsisten ia entres los onvexos C1 y

C2 que entre C1 y C3 de la gura 4.1.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 4.1: Conjuntos convexos con distintos grados de inconsistencia

En esta se ión intentaremos uanti ar el grado de in onsisten ia. Trabajos previos en esta

dire ión pueden en ontrarse en Cano, Moral y Verdegay-López [12, de Campos [9, et ...

La forma más sen illa de estable er di ho valor es la de utilizar una distan ia entre proba-

bilidades de los onvexos de las vistas en el apartado 2. El problema prin ipal es el determinar

qué probabilidad o onjunto de probabilidades se toman para tal n.

Vamos a denir una serie de propiedades que estas fun iones deberían umplir. Sea Pnel

onjunto de los onjuntos onvexos de distribu iones sobre IRndeniremos una distan ia de

in onsisten ia entre dos onjuntos C1, C2 ∈ Pn omo: ∂ : Pn × Pn −→ [0, 1], tal que verique

I ∂(C1, C2) = ∂(C2, C1), ∀C1, C2 ∈ Pn

II Si C1 ∩ C2 6= ∅ enton es ∂(C1, C2) = 0.

III Si C1 ⊆ C2 enton es ∂(C1, C3) ≥ ∂(C2, C3),∀C3 ∈ Pn.

De aquí

- Si C = C1 ∪C2 es un onjunto onvexo de distribu iones de probabilidad sobre un onjunto

nito X, enton es

∂(C,C3) ≤ max ∂(C1, C3), ∂(C2, C3) ,∀C3 ∈ Pn.

- Si C = C1 ∩ C2 enton es ∂(C,C3) ≥ mın ∂(C1, C3), ∂(C2, C3) ,∀C3 ∈ Pn.

IV Las representa iones por dos distribu iones de probabilidad son in onsistentes, es de ir,

∂(p, q) > 0;∀p, q distribu iones de probabilidad.

V Sea C un onjunto onvexo de distribu iones tal que C = αC1 + (1 − α)C2, α ∈ [0, 1].

Enton es ∂(C1, C) ≤ ∂(C1, C2) y ∂(C2, C) ≤ ∂(C1, C2).

Esta última propiedad nos di e que para ualquier pareja de representa iones, ualquier re-

presenta ión que esté entre ellas, sea ombina ión onvexa de ambas, debe ser siempre más

onsistente on ualquiera de ellas que lo son las dos originales entre si.

Diremos que dos onjuntos onvexos de distribu iones son informatívamente onsistentes

si ∂(C1, C2) = 0. Así que on esta distan ia medimos el grado de in onsisten ia entre dos

representa iones. Podemos demostrar que el onjunto de grados de in onsisten ia es no va ío,

demostrando el siguiente teorema:

Teorema 4.1 La siguiente fun ión es una distan ia de In onsisten ia:

∆(C1, C2) = mınp1∈C1,p2∈C2

d(p1, p2),

on d(·, ·) ualquier fun ión distan ia sobre IRnde las denidas anteriormente.

4.5. Índice de inclusión 159

Demostra ión:

I Evidente a ser una fun ión distan ia sobre IRn.

II Idem I.

III Como C1 ⊆ C2

mınp1∈C1,p3∈C3

d(p1, p3) ≥ mınp2∈C2,p3∈C3

d(p2, p3)

al ser toda p1 ∈ C1 pertene iente a C2.

IV Evidente, al ser dos distribu iones de probabilidad distintas.

V Es su iente on demostrar que ∆(C1, C) ≤ ∆(C1, C2):

Supongamos que ∆(C1, C2) = d(p1, p2) para determinados p1 ∈ C1 y p2 ∈ C2. Enton es

tenemos que:

∆(C1, C2) = d(p1, p2) ≥ d(p1, αp1 + (1− α)p2) ≥ ∆(C1, C).

4.5. Índi e de in lusión

Cuando nos planteamos la deni ión de un índi e de i lusión entre dos onvexos representa-

tivos de la informa ión disponible, nos planteamos además de ver geométri amente uánto hay

de uno dentro del otro, o di ho de otra forma, qué propor ión de probabilidades omparte uno

dentro del otro, rela ionando el grado de in lusión on la no-espe i idad. Geométri amente

esto depende de la posi ión relativa de ambos y del tamaño. Como la forma en que midamos la

in lusión de un onvexo en otro no tiene porque ser úni a, deberíamos estable er previamente

qué ondi iones oherentes debe umplir un índi e de tales ara terísti as.

Un índi e de in lusión se puede denir omo una fun ión de la forma: φ : Pn×Pn → [0, 1],

donde φ(C1, C2) indi a el grado de in lusión de C1 sobre C2, on C1, C2 ∈ Pnque satisfa e

I φ(C1, C2) = 0 para representa iones in onsistentes, es de ir, ∂(C1, C2) > 0.

II Si C1 ⊆ C2 enton es φ(C1, C2) = 1

III Si C1 ⊆ C2 enton es φ(C3, C1) ≤ φ(C3, C2),∀C3.

De aquí

- Si C = C1∪C2 es un onjunto onvexo de distribu iones sobre un onjunto nito X, enton es

φ(C3, C) ≥ max φ(C3, C1), φ(C2, C3) ,∀C3.

- Si C = C1 ∩ C2 enton es φ(C3, C) ≤ mın φ(C3, C1), φ(C3, C2) ,∀C3.

IV Sea p una distribu ión de probabilidad sobre IRnenton es

φ(C1, p) =

1 si C1 = p

0 si C1 6= p

φ(p,C1) =

1 si p ∈ C1

0 si p /∈ C1

V Sea C un onjunto onvexo de distribu iones tal que C = αC1 + (1 − α)C2, α ∈ [0, 1].

Enton es φ(C1, C) ≥ φ(C1, C2)

VI Sea X nito tal que X = X1 ×X2, C1 = C11 × C2

1 y C2 = C12 × C2

2 on C11 , C1

2 onjuntos

onvexos de distribu iones sobre X1 y C21 , C2

2 onvexos sobre X2. Enton es

φ(C1, C2) ≤ φ(C11 , C1

2 ) + φ(C21 , C2

Evidentemente este grado se mide para representa iones onsistentes, C1, C2. Cuando C1∩C2 =

∅ no tiene sentido su apli a ión y debe valer 0. Por tanto, no onsideraremos el aso de que

ambos onjuntos sean distribu iones de probabilidad distintas, no tiene sentido y rompe un

po o el formalismo planteado

La familia de índi es de in lusión es no va ía:

Teorema 4.2 Sea la fun ión Φ(C1, C2) = IG(C1∩C2)IG(C1) on C1, C2 ∈ Pn

. Enton es Φ es un

índi e de in lusión.

Demostra ión: Asumimos que

00 = 1 para la fun ión IG.

I Si ∂(C1, C2) > 0 enton es C1 ∩ C2 = ∅ y IG(C1 ∩ C2) = 0.

II Si C1 ⊆ C2 enton es IG(C1 ∩ C2) = IG(C1) y Φ(C1, C2) = 1.

III Si C1 ⊆ C2 enton es Φ(C,C1) = IG(C1∩C)IG(C) ≤ IG(C2∩C)

IG(C) = Φ(C,C2), porque IG es un

fun ión monótona re iente omo se vio en el apítulo ter ero, y C1 ∩C ⊆ C2 ∩C.

4.6. Distancia informativa entre dos conjuntos convexos de distribuciones de probabilidad 161

IV Es obvio si asumimos que

00 = 1 para la fun ión IG. El aso de Φ(q, p) on p, q probabili-

dades distintas, al ser p ∩ q = ∅, ya dire tamente son in onsistentes.

V Es inmediata porque C1 ∩ C2 ⊆ C1 ∩ C y IG es una fun ión monótona re iente.

VI Puesto que IG es una fun ión aditiva por el apítulo anterior, tenemos que:

IG(C1, C2) =IG(C1

1 × C21 ∩ C1

2 × C22 )

IG(C11 × C2

IG(C11 ∩C1

2 ) + IG(C21 ∩ C2

IG(C11 × C2

=IG(C1

1 ∩ C12 )

IG(C11 × C2

IG(C21 ∩ C2

IG(C11 × C2

IG(C11 ∩ C1

IG(C11 ) + IG(C2

IG(C21 ∩ C2

IG(C11 ) + IG(C2

1 )≤

≤ IG(C11 , C1

2 ) + IG(C21 , C2

4.6. Distan ia informativa entre dos onjuntos onvexos de dis-

tribu iones de probabilidad

Como men ionamos anteriormente, aquí queremos medir la diferen ia de informa ión omo

un grado de similitud entre dos representa iones onsistentes. Este índi e puede apli arse a

la trasforma ión de onjuntos onvexos que hi imos para obtener una amplia ión de la no-

espe i idad, imponiendo que el onvexo original y el onstruido tengan un alto grado de

similitud.

Puesto que los on eptos anteriores de distan ia de in onsisten ia y de grado de in lusión

entre onvexos entán intrínse amente rela ionados on lo que bus amos, sería posible intentar

denir una distan ia informativa a partir de las propiedades que debería umplir on respe to

a los anteriores. Antes vamos a determinar dire tamente, qué propiedades deben umplir las

fun iones que omparen la igualdad de dos representa iones distintas.

Llamaremos distan ia informativa entre dos onvexos a una fun ión θ : Pn × Pn → [0, 1] ,

tal que verique las siguientes propiedades on C1, C2 ∈ Pn:

I θ(C1, C2) = θ(C2, C1).

II Sea p una distribu ión de probabilidad sobre IRnenton es

θ(p,C1) =

1 if p = C1

0 if p 6= C1

III θ(C1, C1 ∩ C2) ≤ θ(C1, C2)

IV Sea C un onjunto onvexo de distribu iones tal que C = αC1 + (1 − α)C2, α ∈ [0, 1].

Enton es θ(C1, C) ≤ θ(C1, C2)

También podemos demostrar que también el onjunto de las distan ias Informativas es no

va ío, demostrando de forma inmediata el siguiente teorema:

Teorema 4.3 . Θ(C1, C2) = 1−mın Φ(C1, C2),Φ(C2, C1) es una distan ia informativa en

Pn × Pn, siendo Φ el índi e de in lusión del teorema 4.2

Demostra ión:

I Inmediata.

II Inmediata.

Θ(C1, C1 ∩ C2) = 1−Min φ(C1, C1 ∩ C2), φ(C1 ∩ C2, C1) =

= 1−Min

IG(C1 ∩C2)

IG(C1),IG(C1 ∩ C2)

IG(C1 ∩ C2)

≤ 1−Min

IG(C1 ∩ C2)

IG(C1),IG(C1 ∩C2)

IG(C2)

= Θ(C1, C2).

IV Si IG(C1) ≤ IG(C2) enton es IG(C1) ≤ IG(C) ≤ IG(C2). Puesto que IG(C1 ∩ C) ≥IG(C1 ∩C2), tenemos que

Θ(C1, C) = 1−Min φ(C1, C), φ(C,C1) =

1−Min

IG(C1 ∩C)

IG(C1),IG(C1 ∩ C)

≤ 1−Min

IG(C1 ∩ C2)

IG(C1),IG(C1 ∩C2)

IG(C2)

= Θ(C1, C2).

Y o urre lo mismo si IG(C1) ≥ IG(C2).

4.7. Relaciones y propiedades generales 163

4.7. Rela iones y propiedades generales

Vamos a exponer una serie de rela iones que nos resultan obvias después de omprender

el sentido de las medidas e índi es expuestos anteriormente. De forma inmediata se puede ver

(i) ∂(C1, C2) > 0⇔ φ(C1, C2) = 0⇔ θ(C1, C2) = 1.

(ii) θ(C1, C2) = 0⇔ φ(C1, C2) = φ(C2, C1) = 1.

(iii) φ(C1, C2) > 0⇒ θ(C1, C2) < 1.

Denotando omo C (Pn ) a la familia de distan ias in onsistentes o a la de índi es de in lusión

o de distan ias informativas sobre IRn, las siguientes propiedades son inmediatas:

1. Convexidad: λ ∈ [0, 1] y γ1, γ2 ∈ C (Pn )⇒ λ · γ1 + (1− λ) · γ2 ∈ C (Pn ).

2. γ1, γ2 ∈ C (Pn ) ⇒ γ1 · γ2 ∈ C (Pn ).

3. Si γ ∈ C (Pn ) y ϕ : [0, 1] → [0, 1] es una fun ión no de re iente on ϕ(0) = 0 y ϕ(1) = 1,

enton es ϕ · γ ∈ C (Pn ).

4. γ1, γ2 ∈ C (Pn ) ⇒ mın γ1, γ2 ∈ C (Pn ) y max γ1, γ2 ∈ C (Pn ).

4.8. Ejemplos

Ejemplo 4.1 Usaremos el siguiente ejemplo relativo al resultado de un partido de fútbol

propuesto por Walley [96. Sea Ω = W,D,L el onjunto de los posibles resultados de un

partido de fútbol, donde W se reere a ganar, D a empatar y L a perder. Supongamos que:

(a) D,L es al menos tan probable omo W.

(b) W es al menos tan probable omo D.

( ) D es al menos tan probable omo L.

Como podemos ver en Walley [96, podemos adoptar dos diferentes representa iones de la

informa ión disponible utilizando diferentes herramientas. Se obtienen dos onjuntos onve-

xos o intervalos de probabilidad. Se pueden ver grá amente en la gura 4.2, donde C1 es

el onjunto de ombina iones onvexas de

(12 , 1

2 , 0); (12 , 1

4 , 14); (1

3 , 13 , 1

3), C2 es el onjunto de

ombina iones onvexas de

(13 , 1

3 , 13); ( 5

12 , 14 , 1

3); (12 , 1

4 , 14); (1

2 , 12 , 0); (1

3 , 12 , 1

6)y C1 ⊂ C2. De

aquí ∆(C1, C2) = 0 y IG(C1) = IG(C2) = IG(C1 ∩ C2) = 12 ln(2) − 1

12 ln(3) = 0.255 on

Φ(C1, C2) = Φ(C2, C1) = 1 y Θ(C1, C2) = 0.

Ejemplo 4.2 Consideremos el ejemplo 2.7 donde teníamos dos a.b.p. que representaban la

misma in ertidumbre en la teoría de Dempster-Shafer y eran onsistentes. Supongamos que

los hemos obtenido de dos fuentes de informa ión distintas. Las a.b.p. tenían los siguientes

valores sobre el onjunto X = x1, x2, x3 :

m123 = 0.4

m1 = 0.2

m2 = 0.2

m3 = 0.2

and m′

m′123 = 0.2

m′23 = (m123−m′

123)ln(3)ln(2) ≃ 0.317

m′1 = m′

2 = m′3 =

(1−m′

123−m′

23)3 ≃ 0.161

Se pueden ver en las guras 2.2 y 2.3. Siendo Cm el onjunto de ombina iones onvexas

(0.6, 0.2, 0.2); (0.2, 0.6, 0.2); (0.2, 0.2, 0.6)

y Cm′es el onjunto de ombina iones onvexas de

(0.361, 0.478, 0.161); (0.361, 0.161, 0.478); (0.161, 0.678, 0.161); (0.161, 0.161, 0.678) .

De aquí tenemos que Cm ∩ Cm′es el onjunto de ombina iones onvexas de

(0.2, 0.6, 0.2); (0.2, 0.2, 0.6); (0.361, 0.339, 0.2); (0.361, 0.2, 0.339) .

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 4.2: Conjuntos convexos coherentes con el ejemplo del fútbol

Obtenemos:

∆(Cm, Cm′) = 0

IG(Cm) = IG(Cm′) = 0.6 ln(3) = 0.659

IG(Cm ∩ Cm′) = 0.261 ln(3) = 0.287

Φ(Cm, Cm′) = Φ(Cm′ , Cm) = 0.436

Θ(Cm, Cm′) = 0.564

4.9. Con lusiones

En este apítulo hemos omenzado obteniendo, al igual que de Campos [9, la probabili-

dad más representativa de un onjunto onvexo de distribu iones de probabilidad. De alguna

manera, este ál ulo nos puede servir para omparar las teorías que ambos pro edimientos

representan para representar la informa ión disponible en una determinada situa ión.

Como parte esen ial, hemos presentado en este apítulo herramientas que nos sirvan para

omparar representa iones de onjuntos onvexos diferentes, que provengan del mismo origen

de informa ión. Hemos formalizado el on epto que miden o omparan ada una de ellas a

partir de propiedades esen iales según el aspe to al que ha en referen ia. Las herramientas

han sido las siguientes:

- Distan ia de in onsisten ia entre dos onjuntos onvexos. Para medir representa iones de la

informa ión sin elementos omunes, es de ir, medimos la mayor o menor in onsisten ia entre

dos representa iones in onsistentes.

- Índi e de in lusión entre dos onjuntos onvexos. Para ver el grado de in lusión de una re-

presenta ión en otra utilizando onjuntos onvexos. Para ver que parte de la informa ión que

representa un onvexo está englobada en la que representa el otro.

- Distan ia informativa entre dos onjuntos onvexos. Mide la similitud entre dos representa io-

nes onsistentes.

Estas herramientas en realidad representan a familias de fun iones que veri an las on-

di iones de ada una de las herramientas anteriores. Para demostrar que estas familias son

no va ías nos hemos ayudado de medidas de in ertidumbre sobre onjuntos onvexos del a-

pítulo 3. Hemos expuesto una fun ión de ada familia y hemos demostrado que veri a las

propiedades esen iales en ada aso.

Finalmente hemos expuesto la rela ión existente entre las familias anteriores y hemos visto

que una no es independiente de las otras, sino que representan on eptos interrela ionados.

Capítulo 5

Constru ión de árboles de

lasi a ión utilizando probabilidades

impre isas

5.1. Introdu ión

La lasi a ión es un problema importante en el ampo del aprendizaje automáti o en el

que la teoría lási a de la probabilidad ha sido usada de forma extensiva. Bási amente, tene-

mos un onjunto de observa iones, llamado onjunto de entrenamiento, y queremos obtener

un onjunto de leyes para asignar a ada nueva observa ión un valor de la variable a lasi ar.

El onjunto usado para veri ar la alidad de este onjunto de leyes se llama también onjun-

to de test. La lasi a ión tiene notables apli a iones en medi ina, físi a, re ono imiento de

ara teres, astronomía, e onomía, et ...Con objetivos tales omo re ono imiento de enferme-

dades, predi iones meteorológi as, on esiones de prestamos, et ... Se trata de apli ar reglas

que permitan aso iar un valor posible de una variable a un nuevo individuo on un onjunto

on reto de valores de otras variables. Los individuos que se analizan, enfermos, situa iones

meteorológi as, ara teres difusos, estrellas o lientes de un ban o, tienen unos valores deter-

minados de unas variables que se pueden apre iar, observa iones, y tratamos de prede ir otro

valor de una variable determinada que llamaremos variable a lasi ar. Para lari ar esto

veamos el siguiente ejemplo.

Ejemplo 5.1 Supongamos que estudiamos de un enfermo las siguientes variables: el nivel de

168 Capítulo 5. Construcción de árboles de clasificación utilizando probabilidades imprecisas

al io (Cal io), el tipo de tumor (Tumor), estado de oma (Coma) y presen ia de jaque as

(Jaque as) para ver qué si hay án er o no (Cán er). Partimos de un onjunto de asos (indi-

viduos) de los que tenemos un valor de sus atributos (observa iones) y el valor on reto de la

variable a lasi ar, es de ir, la presen ia o no de án er. Este onjunto de datos, onjunto de

entrenamiento, nos sirve para obtener el onjunto de reglas, siguiendo una losofía u otra de

aprendizaje, que nos llevan a prede ir la presen ia o no de án er de un nuevo enfermo una

vez que obtenemos sus atributos.

En la base de datos de la gura 5.1 tenemos los valores del nivel de al io, tipo de tumor,

estado de oma y presen ia o no de jaque as en enfermos on un determinado tumor, así

omo si ese tumor es o no an erígeno (Can er). Esta base de datos nos sirve para obtener

el ono imiento en forma de árbol que se puede observar en la gura 5.2 para poder obtener

lasi a ión de un aso nuevo de la forma que podemos ven en la gura 5.3

Calcio Tumor Coma Jaquecas Cáncer

normal a1 ausente ausente ausente

alto a1 presente ausente presente

normal a1 ausente ausente ausente

alto ao presente presente ausente

...... ...... ...... ...... ......

Figura 5.1: Base de datos Cáncer

Un lasi ador se puede representar a través de un onjunto dire to de reglas lógi as sin

representa ión grá a o a través de estru turas grá as que dan lugar a las reglas, tales omo:

C la s ifica c ió n :au sen te

C la s if ica c ió n :au sen te

C la s if ica c ió n :p resen te

Calcio

Tumora0 a1

normal alto

Figura 5.2: Obtención de un árbol de clasificación

Nuevo caso -Calcio: alto -Tumor: a1,

-Coma: ausente -Jaquecas: presente

Clasificación

Cáncer: presente

C la s ifica c ió n :au sen te

C la s if ica c ió n :p resen te

Calcio

Figura 5.3: Clasificación de un nuevo individuo

una red Bayesiana [79, una red neural [22, un árbol de lasi a ión [81, et ... Esta última,

también llamada árbol de de isión, será la estru tura sen illa que nosotros utilizaremos y

que podemos ver en el ejemplo 5.1. Cualquiera de los anteriores lasi adores puede onstar

de dos modelos obtenidos a partir de unos datos de entrada: uno grá o (la estru tura del

árbol) y otro numéri o (los parámetros aso iados a las ramas y a los distintos asos de la

variable a lasi ar). Finalmente la estru tura grá a nos permite realizar la lasi a ión de

un nuevo aso uando éste se presenta, pro eso que podemos llamar de salida. Es posible

obtener el modelo grá o dire tamente solamente on la presen ia de un experto en el tema

que nos on ierne, que sea apaz de estable er la rela ión entre las variables atributos que

estudiamos y la variable a lasi ar para posteriormente lasi ar. O urre que no siempre es

posible la presen ia de éste y aunque sea así, una gran antidad de variables, y por lo tanto

de informa ión, es apa fá ilmente a todo ono imiento humano.

Vamos a ha er una breve des rip ión de los lasi adores expandiendo algo más las estru -

turas que utilizaremos a lo largo de este apítulo.

Reglas lógi as.

Son lasi adores basados en reglas de tipo Si...enton es... que obtenidas a partir de unos

datos de aprendizaje permiten el posterior pro eso de lasi a ión. Un árbol de lasi a ión

se puede interpretar omo una onjun ión de reglas de este tipo apoyado en una estru tura

grá a. Tienen su origen en Mi halski [73

Redes Neuronales

Originado por el algoritmo per eptrón de Rosenblatt [86. Se basa en una estru tura pare-

ida a una red neural biológi a. El modelo onsiste en varios elementos simples (neuronas)

interrela ionados on distintas inuen ias entre ellas.

Redes de reen ia

Como referen ia más importante de este modelo tenemos que itar el libro de Pearl [79. Las

redes de reen ia, también llamadas redes bayesianas, es un buen modelo para representar la

rela ión entre las variables que forman la base de datos de entrada Su estru tura se basa en la

representa ión de las rela iones a través de ar os dirigidos, on los que se expresa las rela iones

de dependen ia. El problema de esta redes para la lasi a ión es que, habitualmente, se

onstruyen para des ribir la muestra de entrada en su onjunto y no tiene en uenta la variable

a lasi ar.

No se pensó en su uso omo método de lasi a ión hasta que Duda y Hart [28 utilizan una

red de reen ia sen illa on un por entaje de éxitos muy elevado, el método del Ingenuo Bayes,

ono ido mundialmente, en inglés, omo naive Bayes. Lo vamos a des ribir algo mejor debido

a su importan ia:

Se basa en la independen ia de las variables atributo Xim1 ono ida la variable a lasi ar

C, por lo que puede al ular la probabilidad de ualquier instan ia de las variables Xi dada

P (X1 = a1,X2 = a2, . . . ,Xn = an|C) =∏

P (Xi = ai|C)

apoyándonos en que las probabilidades P (Xi = ai|C) se obtienen por simple fre uen ia de la

base de datos y en el teorema de Bayes que nos permite al ular las probabilidades

P (C = cj |X1 = a1,X2 = a2, . . . ,Xn = an)

para ada valor cj de C dados los valores de los atributos.

La estru tura grá a en la que se basa sería la siguiente: Como se puede pensar la suposi ión

X XX n21

Figura 5.4: Red de creencia del naive Bayes

de independen ia es algo que no tiene porque darse en la mayoría de los asos, por lo que es

algo po o real, aunque obtenga buenos resultados. La razón de éstos es muy sen illa: omo

tiene po os parámetros, éstos se estiman on gran pre isión a partir de la muestra. Modelos

más omplejos pueden propor ionar peores resultados debido a una pobre estima ión de sus

parámetros. Existen varia iones de este método eliminado di ha suposi ión, tales omo los

algoritmos de Cestnik, Kokonenko y Bratko [15, Langley, Iba y Thompson [66, Holte [44,

Langley y Sage [67 , Friedman y Goldszmidt [36.

Árboles de lasi a ión

Tienen su origen en el algoritmo ID3 de Quinlan, Quinlan [81, aunque tenemos también que

remar ar los trabajos de Breiman, Friedman, Olshen y Stone [8.

Como vimos en el ejemplo 5.1 son estru turas fá iles de omprender, en las que en ada nodo

se introdu e una variable atributo en la que se realiza un test que produ e rami a iones

orrespondientes a sus posibles valores, terminado en un nodo hoja donde se introdu e un

valor de la variable a lasi ar. El pro eso de lasi a ión posterior se realiza de la forma

sen illa que vemos en el ejemplo 5.1. En términos generales la rea ión de esta estru tura se

basa en los siguientes puntos:

(i) Determina ión de pro edimiento para elegir el nodo raíz.

(ii) Determina ión del pro edimiento para rami ar así omo el riterio de parada para

determinar que estamos ante un nodo hoja.

(iii) Determina ión del riterio de ele ión del valor de la variable a lasi ar que se introdu e

en un nodo hoja

(iv) Determina ión del pro edimiento de renamiento (poda) en su aso.

Desta amos el algoritmo C4.5, también de Quinlan [82, basado en ID3 que in luye todos los

pro esos anteriormente des ritos y obtiene muy buenos resultados. Este método, que es apaz

de tratar on datos ontinuos, será junto on el ingenuo Bayes uno de los métodos on los que

ompararemos los resultados que obtenemos on los métodos presentados en esta memoria.

Normalmente, estos métodos usan la teoría de la probabilidad para estimar los parámetros,

on un riterio de parada para limitar la omplejidad del lasi ador y anular la dependen ia de

los resultados on el onjunto de datos de entrenamiento, he ho que se denomina normalmente

omo sobreajuste.

Nosotros usaremos la teoría de probabilidades impre isas para onstruir un árbol de lasi-

a ión. Apli aremos árboles de de isión para lasi ar y al igual que Zaalon [110, usaremos el

modelo de Diri hlet impre iso para estimar las probabilidades de pertenen ia a las respe tivas

lases denidas por la variable a lasi ar.

Como riterio para determinar el grado de rami a ión del árbol nal usaremos un riterio

de informa ión máxima, basándonos en las medidas para probabilidades impre isas propuestas

en el apítulo 3. Como veremos, este pro edimiento es su iente para evitar el sobreajuste.

Nuestro método original omenzará on un árbol va ío y sele ionará, para rami ar en

ada nodo, la variable que tenga el mayor grado de redu ión de in ertidumbre total on

respe to a la variable a lasi ar. En la teoría de la probabilidad la rami a ión siempre

impli a una disminu ión de la entropía. Así que, es ne esario in luir un riterio adi ional para

no rear modelos ex esivamente omplejos on dependen ia de los datos (sobreajuste). Con los

onjuntos onvexos de probabilidad, una rami a ión produ e usualmente una menor entropía,

pero al mismo tiempo una mayor no-espe i idad. El riterio de parada es muy simple: uando

la rami a ión produz a un aumento de la in ertidumbre (la entropía disminuye pero no se

ompensa on el aumento de la no-espe i idad).

Posteriormente modi aremos el método original. En él omo hemos omentado se bus an

las rela iones de una sola variable de la base de datos on la variable a lasi ar. Se introdu e

la variable que más reduz a la in ertidumbre de la lasi a ión. Si ninguna variable disminuye

la in ertidumbre enton es para. En el segundo método en lugar de bus ar rela iones de una

sola variable, onsideramos también ómo afe tan ada pareja de variables de la base de datos

a la variable a lasi ar. Introdu iendo la variable que de forma aislada o junto on otra

más reduz a la in ertidumbre. De esta manera bus amos rela iones más omplejas que sólo se

pongan de maniesto uando se estudia ómo dos variables de forma onjunta inuyen sobre la

variable a lasi ar, pero que no se pueden des ubrir a partir de ada una de las dos variables

por separado.

En la se ión 5.2 omenzaremos presentando una serie de ono imientos previos que se

ne esitan sobre in ertidumbre y onjuntos onvexos de probabilidades y veremos omo se

obtiene el onjunto onvexo a partir de una muestra utilizando la distribu ión de Diri hlet

impre isa. En la se ión 5.3 des ribiremos dos métodos de obten ión de árboles de lasi a ión

basándonos en probabilidades impre isas, obtenidas a partir de la distribu ión anteriormente

itada y de medidas de in ertidumbre vistas en el apítulo 3, así omo un interesante aso

prá ti o en un ejemplo. En la se ión 5.4 hequearemos nuestro pro edimiento realizando

experimentos on bases de datos onven ionales. Los ompararemos on el Ingenuo Bayes y

el C4.5, utilizando las mismas bases de datos on el mismo prepro esamiento para que la

ompara ión sea totalmente orre ta. Veremos que se produ en notables diferen ias, sobre

todo uando nos jamos en el sobreajuste que sufren los demás métodos en la mayoría de

las bases de datos y el que sufren nuestros métodos. La última se ión esta dedi ada a las

on lusiones.

5.2. Exposi ión de los métodos de lasi a ión

5.2.1. El modelo de Diri hlet impre iso

Para la introdu ión de este modelo nos basaremos, de forma abreviada, en la exposi ión

realizada por Walley en [97.

El modelo multinomial

Sea el espa io muestral de un experimento el onjunto Ω = ω1, ω2, . . . , ωk, on k ≥ 2,

exahustivo y mutuamente ex lusivo, por lo que todos los resultados posibles aen dentro de

alguna de las ategorías ωj que no tienen elementos omunes. Podemos onsiderarlo omo un

espa io no jo, englobando en ωk a todo lo no in luido anteriormente. Con lo que las inferen ias

que se hagan posteriormente no dependerán de di ho espa io muestral.

El modelo multinomial se basa en la realiza ión de N observa iones independientes del

onjunto Ω on la misma distribu ión de probabilidad para todas ellas, P (ωj) = θj , para

j ∈ 1, 2, . . . , k, donde θj ≥ 0 y

∑j θj = 1. Llamemos nj al número de observa iones del

valor ωj, por lo que tendremos que

∑j nj = N . Notaremos a los ve tores θ = (θ1, θ2, . . . , θk)

y n = (n1, n2, . . . , nk).

Ahora, el onjunto de variables aleatorias n1, n2, . . . , nk tiene una distribu ión multino-

mial y la fun ión de verosimilitud del ve tor n será:

L(θ|n) ∼∏

entendiendo el símbolo ∼ omo propor ional.

La distribu ión de Diri hlet

La Distribu ión de Diri hlet se introdu e para representar variables que toman valores entre

ero y uno y uya suma es igual a la unidad, por lo que nos valdría para estimar los valores

de una distribu ión de probabilidad des ono ida.

5.2. Exposición de los métodos de clasificación 175

La distribu ión a priori de Diri hlet de parámetros (s, t) del ve tor θ, donde t = (t1, t2, . . . , tk)

tiene la siguiente forma:

π(θ) ∼∏

θstj−1j ,

donde s > 0, 0 < tj < 1, para j ∈ 1, 2, . . . , k, ∑j tj = 1, y la onstante que falta para

obtener el valor de π se obtiene utilizando que la integral sobre todos los valores de θ vale 1.

(Esta no es la expresión normal de la distribu ión de Diri hlet, se debe jar previamente el

valor de s, por lo que normalmente se toman parámetros αj = stj.)

Multipli ando la fun ión de verosimilitud de la multinomial por la distribu ión de Diri hlet

anterior, obtenemos la fun ión de densidad a posteriori de la forma:

π(θ|n) ∼∏

θnj+stj−1j ,

que orresponde a una fun ión de distribu ión de Diri hlet de parámetros (N + s, t∗), on

t∗ =nj+stjN+s

. De aquí una de las importantes ventajas del uso de esta distribu ión.

El modelo de Diri hlet impre iso

Se puede denir omo el onjunto de todas las distribu iones de Diri hlet (s, t), tales que

0 < tj < 1, para j ∈ 1, 2, . . . , k, ∑j tj = 1, on s > 0 no dependiente del espa io muestral

Ω. Este onjunto, que se puede denotar omoM0, representa la ignoran ia a priori del valor

del ve tor θ.

El orrespondiente onjunto de distribu iones a posteriori, que se puede notar por MN ,

orresponde a un onjunto de distribu iones de Diri hlet de parámetros (N + s, t∗), on t∗ =nj+stjN+s

on 0 < tj < 1, para j ∈ 1, 2, . . . , k, ∑j tj = 1, omo vimos.

Podemos en ontrar el valor superior e inferior de la distribu ión de probabilidad a poste-

riori para un su eso ualquiera, simplemente optimizando en el onjunto MN . Walley [97,

demuestra que estas inferen ias son oherentes.

Enton es para un su eso Aj que signi a que el valor ωj se produ e en una determinada

prueba, tendríamos los valores extremos de probabilidad siguientes, maximizando y minimi-

zando el valor de t∗:

P (Aj |n) =nj + s

N + s,

P (Aj |n) =nj

N + s,

que se al anzan uando tj −→ 1 y uando tj −→ 0 respe tivamente.

Enton es para un su eso ualquiera A, on fre uen ia n(A) =∑

ωj∈A nj, la predi ión de

la probabilidad de A, P (A|n), bajo la distribu ión a posteriori de Diri hlet(N + s, t∗) tiene la

forma:

P (A|n) =n(A) + st(A)

que produ e las siguientes probabilidades superior e inferior:

P (A|n) =n(A) + s

N + s,

P (A|n) =n(A)

N + s.

El valor del parámetro s tiene ierta ontroversia, Walley lo interpreta omo un número

de observa iones o ultas (o no o urridas) y le da los valores 1 o 2. Como podemos ver de las

expresiones anteriores, s representa el máximo valor que podemos a eptar de la fre uen ia de

un su eso que no o urre. Por ejemplo, si no sabemos el ontenido de una bolsa on bolas de

olores Rojo, Negro y Blan o, y realizamos 10 de extra iones donde no obtenemos ninguna

Blan a, podemos pensar que el valor de s apli ado a este experimento nos daría la probabilidad

superior del su eso orrespondiente a salir bola Blan a, igual a

111 tomando s = 1 y de

tomando s = 2. Como vemos on el valor mayor de s obtenemos también una probabilidad

mayor.

5.2.2. Nota iones y herramientas previas

En ualquier problema de lasi a ión debemos onsiderar que tenemos un onjunto de

datos D on los valores de un onjunto L de variables dis retas o dis retizadas Xin1 . Cadavariable tiene omo estados, asos o atributos los pertene ientes a un onjunto nito ΩXi

x1i , x

2i , ..., x

|ΩXi |i . Nuestro objetivo será rear un árbol de lasi a ión, a partir de los datos

D, de una variable objetivo C, on estados en el onjunto ΩC = c1, c2, ..., c|ΩC |.

Deni ión 5.1 Sea Xin1 un onjunto de variable dis retas on estados en los onjuntos

nitos ΩXi, respe tivamente. Llamaremos ongura ión de Xin1 a ualquier m-upla, m ≤ n,

de la forma:

(Xr1 = xtr1r1 ,Xr2 = x

tr2r2 , ...,Xrm = xtrm

donde xtrjrj ∈ ΩXrj

, j ∈ 1, ...,m, rj ∈ 1, ..., n y rj 6= rh on j 6= h. Es de ir, una ongu-

ra ión es un onjunto de valores de algunas de las variables de Xin1 .

5.2. Exposición de los métodos de clasificación 177

En un árbol de lasi a ión simple, donde en ada nodo tenemos una variable y ada rama

representa un valor de esa variable, un nodo determina una ongura ión: la obtenida por

el amino desde el nodo raíz hasta el propio nodo, tomando los valores de ada variable

orrespondientes a la rama que nos lleva el amino.

Deni ión 5.2 Dado un onjunto de datos y una ongura ión σ del onjunto Xin1 onsi-

deramos un onjunto onvexo de probabilidades PσC para la variable C on respe to a σ denido

por el onjunto de distribu iones de probabilidad, p, tal que

pj = p(C = cj) ∈[

N + s,nσ

cj + s

para ada j ∈ 1, ..., |ΩC |, obtenida en base al modelo de Diri hlet impre iso, para un estado

genéri o cj ∈ ΩC . Aquí nσcj es el número de o urren ias de la ongura ión σ ∪ (C = cj) (que

es la ongura ión que se obtiene añadiendo a las asigna iones de σ el valor (C = cj)) en la

base de datos, N es el número de observa iones onsistentes on los valores de la ongura ión

σ en la base de datos y s > 0 es un hiperparámetro.

Denotaremos a este intervalo omo

[P (cj |σ), P (cj |σ)

El parámetro s determina on qué rapidez las probabilidades inferiores y superiores on-

vergen a medida que tenemos más datos, un valor mayor de s produ e inferen ias más autas.

Como vimos, Walley [97 sugiere un valor para s entre s = 1 y s = 2.

Podemos ver omo obtenemos los intervalos de probabilidad a partir de una muestra en el

ejemplo 5.2.

Ejemplo 5.2 Consideremos un problema de lasi a ión a partir de una base de datos,

donde las variables atributos son Xin1 y la variable a lasi ar C tiene tres asos posi-

bles ΩC = c1, c2, c3. Supongamos que para una ongura ión determinada de los atributos

(X1 = a1,X2 = a2, . . . ,Xn = an) tenemos las fre uen ias siguientes:

nX1=a1,X2=a2,...,Xn=anc1

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Figura 5.5: Representación del conjunto convexo del ejemplo 5.2

Ahora tendríamos, on el parámetro s = 1, el siguiente onjunto de intervalos de probabili-

dad para los valores de C:

[45, 1]; [0,

5]; [0,

que origina el onjunto onvexo on vérti es:

(1, 0, 0); (45,1

5, 0); (

Se puede observar en la gura 5.5. Sobre él podemos apli ar las medidas de in ertidumbre vistas

en el apítulo 3.

5.3. Obten ión del árbol de lasi a ión

Vamos a pro eder a exponer omo se onstruirán los árboles de lasi a ión según dos

métodos: método simple (Abellán y Moral [3) y método doble (Abellán y Moral [4). Éstos

tienes igual losofía pero distinta omplejidad. Ambos métodos se basan en elegir un nodo para

rami ar on una mayor redu ión de la in ertidumbre, mientras esta redu ión sea posible.

La diferen ia fundamental del método doble on respe to al simple es que también prueba si

añadiendo dos variables la redu ión de la in ertidumbre es aún mayor. Finalmente obtienen

5.3. Obtención del árbol de clasificación 179

un árbol simple tal y omo vimos en la introdu ión de este apítulo. Señalamos que en ninguno

de los dos métodos se realiza un posterior pro eso de renamiento o poda para simpli ar la

omplejidad de la estru tura.

Al nal de esta se ión veremos un ejemplo prá ti o de obten ión de árboles de lasi a ión

a partir de ada uno de los métodos, para poder observar el fun ionamiento de ambos y queden

laras las diferen ias.

5.3.1. Método simple

Un árbol de lasi a ión es un árbol donde en ada nodo tenemos una variable del onjunto

de datos Xj y on tantos hijos omo posibles valores tiene: Xj = xtj ∈ ΩXj

. En ada nodo

hoja tenemos un onjunto onvexo de probabilidades para la variable a lasi ar, PσC , omo se

denió anteriormente, donde σ es la ongura ión de todos los valores de las variables que hay

desde el nodo raíz hasta di ha hoja. Sobre este onjunto onvexo, realmente es un onjunto de

intervalos de probabilidad, se puede apli ar ualquiera de las medidas de in ertidumbre total

del apítulo 3, que genéri amente llamaremos TU .

El método se puede des ribir usando los siguientes puntos:

I. Comenzamos on un árbol va ío. Veamos omo se determina el nodo raíz. Cal ulamos el

siguiente mínimo

mınXi∈L

r∈1,..,|ΩXi |ρXi=xr

i TU(PXi=xri

on ρXi=xri la fre uen ia de Xi = xr

i y L la lista de las variables en la base de datos.

Este valor debe ser menor que TU(P∅C). En otro aso, el árbol de lasi a ión tendrá un sólo

nodo, un onjunto onvexo de probabilidades P∅C y se tendrá sólo en uenta los valores de las

fre uen ias de los distintos estados de la variable a lasi ar.

Tomaremos omo nodo raíz la variable donde se al anza di ho mínimo.

II. Para ada nodo ya generado, al ulamos la in ertidumbre total del onjunto onvexo de

probabilidades aso iado a esa ongura ión, σ, del amino del nodo raíz a di ho nodo: TU(PσC).

De nuevo, al ulamos el valor:

mınXi∈L∗

r∈1,..,|ΩXi |ρσ∪Xi=xr

i TU(Pσ∪Xi=xri

donde L∗ es el onjunto de variables del onjunto de datos menos aquellas que hay en el amino

del nodo raíz al a tual.

Pro ederemos de forma similar a la ele ión del nodo raíz, si este mínimo, al anzado por algún

Xi0 , es menor que TU(PσC) etiquetaremos a este nodo omo Xi0 y añadiremos una rami a ión

para ada uno de sus hijos. El pro eso se repite para ada uno de ellos.

III. Si no hay variable que reduz a la in ertidumbre o no quedan variables en la lista L∗,enton es tendremos un nodo hoja que tendrá aso iado un onjunto onvexo de probabilidades

determinado por la ongura ión hasta ese punto.

5.3.2. Método doble

De manera similar a omo onstruíamos nuestro árbol de lasi a ión on el método simple,

onstruiremos el árbol on el nuevo método. En las mismas ondi iones del método simple, el

nuevo método onsiste en onsiderar dos variables a la vez y añadir una variable si después

de rami ar on otra variable superior tenemos una máxima redu ión de la in ertidumbre.

Tratamos así de dete tar rela iones de orden superior.

El método se puede des ribir usando los siguientes puntos:

I. Comenzamos on un árbol va ío. Veamos omo se determina el nodo raíz. Cal ulamos el

mínimo de los valores α y β, donde:

α = mınXi∈L

r∈1,..,|ΩXi |ρX=xr

i TU(PXi=xri

β = mınXi,Xj∈L

r∈1,..,|ΩXi |,t∈1,..,∣∣∣ΩXj

∣∣∣

ρXi=xri ,Xj=xt

jTU(PXi=xri ,Xj=xt

on ρXi=xri la fre uen ia de Xi = xr

i , ρXi=xri ,Xj=xt

j la fre uen ia de Xi = xri ,Xj = xt

j yL la lista de las variables en la base de datos. Este valor debe ser menor que TU(P∅

C). En otro

aso, el árbol de lasi a ión tendrá un sólo nodo, un onjunto onvexo de probabilidades P∅C

y se tendrá sólo en uenta los valores de las fre uen ias de los distintos estados de la variable

a lasi ar.

Si α ≤ β elegimos omo nodo raíz la variable que al anza ese mínimo, en otro aso tendremos

una pareja de variables y elegiremos de esas dos la que de forma individual disminuya más la

in ertidumbre tal y omo se al ula para α.

II. Para ada nodo ya generado, al ulamos la in ertidumbre total del onjunto onvexo de

probabilidades aso iado a esa ongura ión, σ, del amino del nodo raíz a di ho nodo: TU(PσC).

De nuevo, al ulamos el mínimo valor de α′y β′

, donde:

α′ = mınXi∈L∗

r∈1,..,|ΩXi |ρσ∪Xi=xr

iTU(Pσ∪Xi=xr

β′ = mınXi,Xj∈L∗

r∈1,..,|ΩXi |,t∈1,..,∣∣∣ΩXj

∣∣∣

ρσ∪Xi=xri ,Xj=xt

jTU(Pσ∪Xi=xri ,Xj=xt

donde L∗ es el onjunto de variables del onjunto de datos menos aquellas que hay en el amino

del nodo raíz al a tual.

Pro ederemos de forma similar a la ele ión del nodo raíz, si α′ ≤ β′elegimos omo nodo

entrante la variable que al anza ese mínimo, en otro aso tendremos una pareja de variables y

elegiremos de esas dos la que de forma individual disminuya más la in ertidumbre tal y omo se

al ula para α′. Si este mínimo, al anzado por algún Xi0 , es menor que TU(Pσ

C) etiquetaremos

a este nodo omo Xi0 y añadiremos una rami a ión para ada uno de sus hijos. El pro eso

se repite para ada uno de ellos.

III. Si no hay variable que reduz a la in ertidumbre o no quedan variables en la lista L∗,enton es tendremos un nodo hoja que tendrá aso iado un onjunto onvexo de probabilidades

determinado por la ongura ión que está en el amino hasta ese punto.

Al igual que el método original, el nuevo método introdu e sólo una variable en ada nodo,

sin embargo, la diferen ia prin ipal está en la forma en la que se determina qué variable es la

que entra, pues se tiene en uenta además la in ertidumbre que se genera al onsiderar parejas

de variables, omo se puede apre iar en las expresiones de β y β′. En el nuevo método se

aumenta onsiderablemente la omplejidad on respe to al primer método que sólo ne esitaba

del ál ulo de α y α′.

El planteamiento que exponemos de introdu ión de variables mejora la introdu ión de dos

variable por nodo, uando la redu ión de in ertidumbre lo permita, pues es posible que para

algún hijo de la variable que entra se reduz a más la in ertidumbre si se introdu e otra variable

que no sea su pareja del óptimo (después onsideramos de nuevo una pareja de variables).

La originalidad del nuevo método estriba en la amplia ión de la búsqueda de la redu ión

de la in ertidumbre utilizando un método que usa onjuntamente dos variables, lo que permite

en ontrar las rela iones dire tas entre dos o más variables y la variable a lasi ar. Los resul-

tados son normalmente similares al método primero ex epto en aquellos asos donde existan

este tipo de rela iones de más nivel, donde en ontraremos una notable mejora.

5.3.3. De isión en las hojas

Una vez obtenido el árbol de lasi a ión, ya sea por el método original o por el ampliado,

veamos omo se puede lasi ar un nuevo aso. Supongamos un aso on valores de todas las

variables atributo, omenzamos desde el nodo raíz del árbol y seguiremos el amino que nos

mar an los valores del nuevo aso, si estamos en un nodo on variable Xi y esta variable toma

el estado xri en el nuevo aso, enton es elegimos el hijo orrespondiente a ese valor. Este pro eso

se repite hasta que lleguemos a un nodo hoja. En di ho nodo hoja onsideramos el onjunto

onvexo (intervalos de probabilidad) sobre los valores de la variable a lasi ar que al ulamos

en la onstru ión del árbol. En ontraremos el valor orrespondiente de la variable a lasi ar

C, utilizando el riterio de dominan ia fuerte sobre ella. Este riterio generalmente impli a

un orden par ial y en algunas situa iones no es posible pre isar valor alguno de la variable que

se lasi a. Se elegirá el estado C = chsi se veri a que ∀i 6= h :

P (ci|σ) < P (ch|σ).

Cuando no hay valor dominante el resultado podría ser el onjunto de estados no dominados

de C, (estados cipara los que no hay otro estado que lo domine según la desigualdad anterior).

En este aspe to obtenemos lo que Zaalon [111 llama un lasi ador redal, on el que se

obtiene un onjunto de estados no dominados y no un úni o estado o nada omo en nuestro aso

( uando no hay un estado dominante simplemente no lasi amos). Apli ar este pro edimiento

evitaría la pérdida de informa ión que obtendríamos al dejar sin lasi a ión aquellos asos

donde hay estados de C on fre uen ias superiores al resto pero que nuestro riterio no permite

lasi a ión alguna, omo veremos que o urre en la base de datos Cleveland.

Como queremos omparar nuestros métodos on otros ya ono idos que lasi an todos los

valores del onjunto de test, vamos a forzar también la total lasi a ión utilizando el riterio

alternativo de elegir el aso on máxima fre uen ia.

Otra alternativa, al riterio de lasi a ión que apli amos, es el de dominan ia redal [111 o

también llamado estri ta preferen ia, Walley [96. Este riterio está basado en la ompara ión

en base a todas las probabilidades del onjunto onvexo de probabilidades. La dominan ia

fuerte impli a la redal, pero el inverso no es ierto. Sin embargo es este aso parti ular partimos

de un onjunto onvexo de probabilidades que se obtiene a partir de intervalos a esibles para

los estados de la variable a lasi ar y es fá il probar que los dos riterios son equivalentes.

Ejemplo 5.3 Consideremos la base de datos Can er del ejemplo 5.1 el la que los atributos son

los que enumeramos a ontinua ión, on sus posibles valores o estados entre paréntesis: Cal-

io(normal,alto); Tumor(a1,a0); Coma(ausente,presente) y Jaque as(ausente,presente). Abre-

viaremos los nombres de estas variables omo: Ca, T, Co y J respe tivamente. Nuestra variable

a lasi ar es la Can er(ausente,presente), abreviada omo C, que indi a que on los atributos

anteriores un enfermo tiene un tumor an erígeno o no.

Hemos visto que en nuestro método no hay diferen ia en la forma de elegir el nodo raíz

o ualquier otro que no sea un nodo hoja. Veamos omo obtenemos un nodo partiendo de la

situa ión que vemos en la gura 5.6, en la que vemos que se ha introdu ido en el nodo raíz la

variable Tumor.

En la base de datos Can er, usando la nota ión de la exposi ión de los métodos de lasi-

a ión, tenemos las siguiente fre uen ias:

ρT=a0 = 247

ρT=a1 = 153,

on lo que sabemos que tenemos un total de 400 registros en nuestra base de datos Can er,

para realizar el aprendizaje que nos lleve a rear el árbol.

Vamos a ver primero omo rami amos en la segunda rama (T = a1) utilizando un método

u otro.

Previamente hay que al ular la in ertidumbre de la variable a lasi ar en di ho punto para

ompararla on la que se produ iría si introdu imos una de las otras variables de la base de

datos. Re ordemos que si no se produ e redu ión este nodo sería un nodo hoja y pro ederíamos

a su lasi a ión. Tenemos las fre uen ias:

Figura 5.6: Situación de partida

nT=a1C=ausente = 70,

nT=a1C=presente = 83,

utilizando la distribu ión de Diri hlet impre isa, on el valor de s = 1, nos originan el onvexo

determinado por los intervalos de probabilidad siguientes:

154]; [

Ahora tomando omo fun ión de in ertidumbre total, TU, la fun ión TU1 = G∗ + IG que

teníamos en el apítulo 3, obtenemos el siguiente valor de in ertidumbre:

TU1(PT=a1C ) = H(

154) +

154log(2) = 0.695,

donde la fun ión H es la entropía de Shannon, omo hemos notado hasta ahora.

Con el método simple al ularíamos las in ertidumbres que se produ en introdu iendo ada

variable, para posteriormente dejar en el nodo la que menos valor de esta represente. Vea-

mos omo al ulamos la de la variable Cal io (el resto de forma similar). Partimos de las

fre uen ias:

ρT=a1,Ca=normal = 22,

ρT=a1,Ca=elevado = 131.

Tenemos que al ular el onvexo en ada rama por lo que tenemos las fre uen ias

nT=a1,Ca=normalC=ausente = 1,

nT=a1,Ca=normalC=presente = 21,

nT=a1,Ca=elevadoC=ausente = 25,

nT=a1,Ca=elevadoC=presente = 106,

utilizando la distribu ión de Diri hlet impre isa, on el valor de s = 1, nos originan los on-

vexos determinados por los intervalos de probabilidad siguientes para las ongura iones ante-

riores (T = a1, Ca = normal y T = a1, Ca = elevado) respe tivamente:

23]; [

132]; [

132,107

Con TU1 obtenemos los siguientes valores de in ertidumbre para ada onvexo:

TU1(PT=a1,Ca=normalC ) = H(

23log(2) = 0.326

TU1(PT=a1,Ca=normalC ) = H(

132,106

132) +

132log(2) = 0.501

Con lo que a la variable Cal io le orrespondería el siguiente valor de in ertidumbre en di ho

punto:

Ca −→ 22

153× 0.326 +

153× 0.501 = 0.476

Se repite el pro eso on las otras variables, Co y J, y nos queda

Co −→ 0.542

J −→ 0.698

Ahora omparando estos valores on el de in ertidumbre previa (0.695) tenemos que se

rami a y entraría la variable Cal io que posee el menor valor (0.476). Por lo que tendríamos

la gura 5.7.

Calcio

normal elevado

Figura 5.7: Situación obtenida aplicando el método simple

Si estamos en el método doble, al ularíamos exa tamente igual todo lo anterior, la in er-

tidumbre previa y las orrespondientes al resto de las variables de la base de datos de forma

individual, así omo la que se produ e en las parejas de éstas. Así pues para ada pareja de

variables del onjunto T,Co, J al ularíamos el onvexo y su in ertidumbre.

Así pues para la pareja (Co,J) tendríamos que partir de las fre uen ias:

ρT=a1,Co=ausente,J=ausente

ρT=a1,Co=ausente,J=presente

ρT=a1,Co=presente,J=ausente

ρT=a1,Co=presente,J=presente

que se utilizarían omo pesos, al igual que en método simple, y además las fre uen ias

nT=a1,Co=ausente,J=ausenteC=ausente

nT=a1,Co=ausente,J=ausenteC=presente

nT=a1,Co=ausente,J=presenteC=ausente

nT=a1,Co=ausente,J=presenteC=presente

nT=a1,Co=presente,J=ausenteC=ausente

nT=a1,Co=presente,J=ausenteC=presente

nT=a1,Co=presente,J=presenteC=ausente

nT=a1,Co=presente,J=presenteC=presente

que nos sirven para obtener los onvexos por la distribu ión de Diri hlet impre isa, sus in er-

tidumbres y posteriormente al ularíamos el promedio de esta usando las ρ anteriores, igual

que en el método simple.

Obtenemos los valores siguientes:

Ca,Co −→ 0.498

Ca, J −→ 0.501

Co, J −→ 0.466

que omparándolos on los individuales

Ca −→ 0.476

Co −→ 0.542

J −→ 0.698

tenemos que se produ e el mínimo en la pareja (Co,J) y de éstas en la variable Co. Por tanto

ahora, re ordemos que seguimos reando un árbol simple en el que en ada nodo sólo entra una

variable, entraría la variable Coma tal y omo vemos en la gura 5.8.

Para repetir el pro eso en la otra rama (T=a0) se pro edería de la misma forma y obtenemos

los datos

TU1(PT=a0C ) = 0.455

ausente presente

Figura 5.8: Situación obtenida aplicando el método doble

para omparar on las in ertidumbres obtenidas al introdu ir una o dos variables (métodos

simple y doble):

Ca −→ 0.488

Co −→ 0.540

J −→ 0.672

Ca,Co −→ 0.601

Ca, J −→ 0.533

Co, J −→ 0.615

Por lo que on ningún método rami aríamos en este punto, al superarse la in ertidum-

bre on ualquiera de ellos. Por tanto tendríamos un nodo hoja y habría que pro eder a la

lasi a ión.

Partiendo de las fre uen ias:

nT=a1C=ausente = 230,

nT=a1C=presente = 17,

lo que ya nos haría de idir por el aso de C=ausente si utilizamos el riterio de la mayor

fre uen ia. Apli ando la dominan ia fuerte tenemos los intervalos de probabilidad:

[P (C = ausente|T = a0) =230

258, P (C = ausente|T = a0) =

[P (C = presente|T = a0) =17

258, P (C = presente|T = a0) =

donde laramente tenemos

P (C = ausente|T = a0) > P (C = presente|T = a0),

igual que tomando solo las fre uen ias, lo que era evidente. Tendríamos enton es las estru turas

de la gura 5.9 para los métodos simple y doble respe tivamente, notando al nodo hoja (valor

de la variable Cán er) on forma de re tángulo on vérti es redondeados.

ausente presente

Calcio

normal elevado

ausente ausente

Simple Doble

Figura 5.9: Situación obtenida aplicando los métodos simple y doble a la rama T=a0

5.4. Experimenta ión

5.4.1. Las bases de datos utilizadas

Hemos apli ado los métodos sobre algunas bases de datos ono idas, obtenidas de U i

repository of ma hine learning databases (ftp://ftp.i s.u i.edu/ma hine-learning-databases).

Nos apoyaremos en el trabajo, que sobre estas bases de datos, realizó A id [6 en su tesis

do toral, donde expone una serie de interesantes métodos de lasi a ión basándose en redes

de reen ia.

En la tabla 5.1 hay una breve des rip ión de las bases de datos usadas. Podemos ver el

número de asos del onjunto de entrenamiento (N. Tr), del onjunto de test (N. Ts), el nú-

mero de variables de la base de datos (variables) y el número de los diferentes estados de la

variable a lasi ar (estados). Como hemos omentado, estas bases de datos han sido usadas

y pro esadas por A id [6. Algunas de las bases de datos tenían observa iones perdidas y en

algunos asos tenían variables no dis retas. Los asos on valores perdidos fueron elimina-

dos y las variables ontinuas fueron dis retizadas usando el software MLC++, disponible en

http://www.sgi. om/te h/ml . La medida usada para dis retizar fue la entropía. El número

de intervalos no es jo, y se obtiene siguiendo el pro edimiento de Fayyad e Irani [34. Sólo se

utilizó el onjunto de entrenamiento para el pro edimiento de dis retiza ión. En algunos asos

los datos del los onjuntos de entrenamiento y test se en uentran en heros separados y en

otros se han separado en

13 respe tivamente.

Por su ámbito de apli a ión, las bases de datos provienen de la medi ina: Breast, Breast

Can er, Heart, Hepatitis, Cleveland, Cleveland nominal y Pima; del ampo de la políti a:

Vote1; del ampo nan iero: Australian; del ampo botáni o: Soybean-small y Monks1 es una

base de datos arti ial que más adelante expli aremos.

5.4.2. Resultados

Hemos usado el parámetro menos onservador s = 1, pues on s > 1 obtendríamos un alto

grado de asos no lasi ados en algunas bases de datos, aunque también un alto por entaje

de a iertos.

Las fun iones de in ertidumbre total que utilizamos fueron las siguientes:

(i) TU1 = G∗ + IG

5.4. Experimentación 191

Base de Datos N. Tr N. Ts variables estados

Breast Can er 184 93 9 2

Breast 457 226 10 2

Heart 180 90 13 2

Hepatitis 59 21 19 2

Cleveland nominal 202 99 7 5

Cleveland 200 97 13 5

Pima 512 256 8 2

Vote1 300 135 15 2

Australian 460 230 14 2

Monks1 124 432 6 2

Soybean-small 31 16 21 4

Tabla 5.1: Descripción de las bases de datos

(ii) TU2 = G∗ + G∗ −G∗ = 2G∗ −G∗

Éstas fueron utilizadas en el apítulo 3. Además onsideraremos:

(iii) TU3 = G∗ + Dif1

(iv) TU4 = G∗ + Dif2

Donde Dif1 y Dif2 son fun iones de no-espe i idad que podemos obtener al adaptar la fun ión

HL de Klir a onjuntos de intervalos de probabilidades, que omo hemos visto son los onjuntos

onvexos que obtenemos en nuestro método. Expresamos dif j omo la máxima diferen ia de

probabilidad para la omponente j, es de ir, dif j = uj−lj, |X| = n on X el onjunto nito on

que trabajamos. Estas fun iones monótonas, omo se puede observar, están normalizadas para

que tengan rango [0, log(n)] y tienen la siguientes expresiones para un onjunto de intervalos

de probabilidades L:

Dif1(L) =log(n)

n log(2)log[∏

(1 + dif j)]

Dif2(L) =log(n)

log(n + 1)log[1 +

(1 + dif j)]

Finalmente hemos onsiderado omo fun ión de in ertidumbre:

(v) TU5 = G∗

En general, se va a disminuir la entropía pero aumentará la no-espe i idad, una osa

ompensará la otra. Si usamos TU5 que sólo mide el máximo de la entropía veremos que aunque

en algunos asos obtenemos buenos resultados, éstos provienen de árboles on demasiada

rami a ión, lo que puede originar también el men ionado sobreajuste.

Hemos utilizado para obtener la lasi a ión nal en las hojas los riterios de lasi a ión

fuerte (dominan ia fuerte) y lasi a ión por fre uen ias donde forzamos a lasi ar omple-

tamente siempre, aún en aso de igualdad de probabilidad. Con el primero sabemos que hay

asos en donde no se obtiene lasi a ión. Estos valores de no lasi ados los veremos y ana-

lizaremos también. Con el segundo forzamos la lasi a ión aún en ondi iones negativas al

resultado omo es el la igualdad de fre uen ias nal para los asos de la variable a lasi ar o

el del po o tamaño muestral on el que se han estimado las probabilidades. Por ejemplo, en

los asos donde hay 2 valores posibles de la variable a lasi ar y obtenemos fre uen ias de

1 y 0 respe tivamente, on este método pro edemos a lasi ar on el onsiguiente riesgo de

sobreajuste.

Los algoritmos para el método simple y el doble se implementaron usando el lenguaje Java

versión 1.1.8.

En la tabla 5.2 veremos los por entajes de a iertos de otros métodos que utilizaremos para

omparar los nuestros. Las olumnas NB orresponden al lasi ador del ingenuo Bayes sobre

los onjuntos de entrenamiento y de test. Análogamente la olumna del C4.5 orresponde al

método de Quinlan [82, donde se usa un árbol de lasi a ión on probabilidades lási as.

5.4.2.1. Resultados del método simple

Vamos a exponer primeramente los resultados del método simple, on las espe i a iones

generales anteriormente expuestas, para TU1 on el riterio de dominan ia fuerte, que fue la

primera fun ión que utilizamos en nuestros experimentos. Los resultados los podemos ver en

la tabla 5.3, donde repetimos los resultados de los métodos ingenuo Bayes y C4.5 anteriores

para omparar mejor los por entajes de a iertos.

La olumna de entrenamiento ontiene los resultados sobre el onjunto que se apli ó para

el aprendizaje. En la olumna UC(Tr) tenemos el por entaje de asos no lasi ados, es de ir,

las observa iones que no obtuvieron lasi a ión según el riterio de dominan ia fuerte que

apli amos, y en la olumna UC(Ts) tenemos los asos no lasi ados del onjunto de test.

Se puede observar que en el método simple no existe un laro sobreajuste en ninguna

Base de datos NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)

Breast Can er 78.2 74.2 81.5 75.3

Breast 97.8 97.3 97.6 95.1

Cleveland nominal 63.9 57.6 69.3 51.5

Cleveland 78.0 50.5 73.5 54.6

Pima 76.4 74.6 79.9 75.0

Heart 87.8 82.2 83.3 75.6

Hepatitis 96.2 81.5 96.2 85.2

Australian 87.6 86.1 89.3 83.0

Vote1 87.6 88.9 94.5 88.3

Soybean-small 100 93.8 100 100

Tabla 5.2: Porcentajes de otros métodos

Resultados. Método simple Resultados. Otros métodos

Base de Datos Training UC(Tr) Test UC(Ts) NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)

Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3

Breast 98.0 1.3 96.9 0.9 97.8 97.3 97.6 95.1

Cleveland nom. 62.7 4.4 66.0 5.0 63.9 57.6 69.3 51.5

Cleveland 72.8 21.0 69.9 24.7 78.0 50.5 73.5 54.6

Pima 79.7 0.2 80.5 0.0 76.4 74.6 79.9 75.0

Heart 92.2 7.2 95.2 6.7 87.8 82.2 83.3 75.6

Hepatitis 95.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2

Australian 92.3 3.4 91.0 3.4 87.6 86.1 89.3 83.0

Vote1 96.1 6.6 96.9 5.9 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

Tabla 5.3: Resultados método simple para TU1 con dominacia fuerte

Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3

Breast 96.7 0.4 96.0 0.4 97.8 97.3 97.6 95.1

Cleveland nom. 59.3 6.4 661.5 8.0 63.9 57.6 69.3 51.5

Cleveland 67.4 12.5 68.7 14.4 78.0 50.5 73.5 54.6

Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0

Heart 87.3 12.2 89.5 15.6 87.8 82.2 83.3 75.6

Hepatitis 83.1 0.0 85.7 0.0 96.2 81.5 96.2 85.2

Australian 88.7 2.0 85.8 2.2 87.6 86.1 89.3 83.0

Vote1 93.4 4.0 93.1 3.0 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

base de datos, uno de los problemas más omunes en los distintos métodos de aprendizaje, el

por entaje de a iertos en el onjunto de entrenamiento es similar al del test.

Sólo la base de datos Cleveland tiene un alto grado de datos no lasi ados. Este es el

aso on la variable a lasi ar de mayor número de estados y es más difí il obtener una lase

dominante. En este aso obtendríamos más informa ión dando omo resultado el onjunto de

lases no dominadas. En la mayoría de las bases de datos tenemos que la variable a lasi ar

tiene dos estados sólo por lo que es lo mismo dar el onjunto de estados no dominados o apli ar

el riterio de dominan ia fuerte.

Podemos ver que hay un laro sobreajuste en el ingenuo Bayes y en el C4.5, siendo espe-

ialmente notable en algunas bases de datos (Cleveland nominal, Cleveland y Hepatitis).

En las tablas 5.4, 5.5, 5.6 y 5.7 tenemos los resultados obtenidos on TU2, TU3, TU4 y

TU5 respe tivamente.

Como se puede apre iar los resultados de TU1 son mejores que los de TU2, TU3 y TU4

en términos generales, aunque bien es ierto que también es mayor el por entaje de asos no

lasi ados, sin llegar a ser una diferen ia demasiado notable en ambos asos. Remar amos

también que TU2 tiene peores resultados que TU3 y TU4, siendo los de éstos últimos iguales

ex epto para las bases de datos Cleveland, donde hay ligera diferen ia a favor de TU3 pero

tiene mayor por entaje de no lasi ados también.

Tenemos que remar ar los resultados de TU5, donde omo vemos en la tabla 5.7 se pro-

Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3

Breast 97.8 1.0 96.9 0.9 97.8 97.3 97.6 95.1

Cleveland nom. 61.2 6.9 64.8 8.0 63.9 57.6 69.3 51.5

Cleveland 73.2 23.5 69.9 24.7 78.0 50.5 73.5 54.6

Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0

Heart 90.7 4.4 93.0 4.4 87.8 82.2 83.3 75.6

Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2

Australian 88.9 0.4 86.0 0.8 87.6 86.1 89.3 83.0

Vote1 94.0 5.0 93.8 4.4 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3

Breast 97.8 1.3 96.9 0.9 97.8 97.3 97.6 95.1

Cleveland nom. 59.3 6.4 61.5 8.0 63.9 57.6 69.3 51.5

Cleveland 65.9 12.0 67.5 14.4 78.0 50.5 73.5 54.6

Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0

Heart 90.7 4.4 93.0 4.4 87.8 82.2 83.3 75.6

Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2

Australian 88.9 0.4 86.0 0.8 87.6 86.1 89.3 83.0

Vote1 94.0 5.0 93.8 4.4 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

Breast Can er 89.0 16.3 93.5 17.2 78.2 74.2 81.5 75.3

Breast 99.1 2.6 98.6 2.6 97.8 97.3 97.6 95.1

Cleveland nom. 73.6 21.2 74.4 13.1 63.9 57.6 69.3 51.5

Cleveland 82.6 34.0 80.3 31.9 78.0 50.5 73.5 54.6

Pima 86.6 15.6 86.2 15.2 76.4 74.6 79.9 75.0

Heart 93.9 8.8 93.8 10.0 87.8 82.2 83.3 75.6

Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2

Australian 95.3 6.5 94.4 6.5 87.6 86.1 89.3 83.0

Vote1 98.2 5.3 98.4 4.4 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

du en unos altísimos por entajes de a iertos pero también hay un aumento de los valores no

lasi ados. Si observáramos los árboles obtenidos en el aso de ualquier otra fun ión de

in ertidumbre y TU5 veríamos que la omplejidad de la primera es mu ho más alta. Para

poder observar esto mejor sólo tenemos que ver la tabla 5.8 donde tenemos el número de hojas

de los árboles on TU1, TU2, TU3, TU4 y TU5 para las bases de datos Breast y Cleveland,

donde apre iaremos una notabilísima diferen ia de todas on TU5. En la olumna de N de

hojas totales tenemos el número de hojas que tendría un árbol para esa base de datos en el

aso de rami a ión ompleta. Este último dato no es signi ativo pues el número de regis-

tros, del hero utilizado para el aprendizaje, que tienen estas bases de datos es de 457 y 200

respe tivamente, muy redu idos respe to al número de hojas posibles, sobre todo en el último

aso. Realmente tendríamos que omparar el número de hojas que se obtienen para las dis-

tintas fun iones de in ertidumbre on el número de registros anterior. Por tanto, la diferen ia

de TU5 on las demás, teniendo en uenta el número total de registros para el aprendizaje

(200), es demasiado grande, lo que ha e pensar en una rami a ión asi ompleta, que podría

sufrir de sobreajuste. De todas formas no se ha observado este sobreajuste en los experimentos

realizados.

En la tabla 5.9 podemos ver los resultados obtenidos en el aso de forzar la lasi a ión

ompleta en las hojas (todos lasi ados), utilizando el riterio de máxima fre uen ia. En

general aumentan los errores, por lo que pare e más razonable el riterio de dominan ia fuerte

Base de datos TU1 TU2 TU3 TU4 TU5 N de hojas totales

Breast 10 7 9 9 17 512

Cleveland 17 8 14 11 112 635904

Tabla 5.8: Número de hojas de los árboles de clasificación obtenidos con el método simple y cada una de las

funciones de incertidumbre

Breast Can er 75.5|81.7 75.5|81.7 75.5|81.7 75.5|81.7 84.8|90.3

Breast 97.6|96.9 96.5|96.0 97.4|96.9 97.4|96.9 98.2|97.8

Cleveland nominal 69.2|65.7 57.9|60.6 59.9|63.6 57.9|60.6 74.3|75.8

Cleveland 68.0|67.0 64.0|64.9 66.0|64.9 63.5|64.9 83.0|80.4

Pima 79.7|80.5 78.7|78.9 78.7|78.9 78.7|78.9 81.8|80.9

Heart 90.0|93.3 83.3|85.6 89.4|91.1 89.4|91.1 91.1|92.2

Hepatitis 96.6|95.2 83.1|85.7 96.6|95.2 96.6|95.2 96.6|95.2

Australian 91.5|90.9 88.0|85.2 88.9|86.1 88.9|86.1 93.9|93.5

Vote1 94.0|94.8 92.0|91.9 92.3|91.9 92.3|91.9 93.3|97.8

Soybean-small 100|100 100|100 100|100 100|100 100|100

Tabla 5.9: Resultados, para cada una de las funciones de incertidumbre, del método simple con clasificación

completa

que deja algunos asos difí iles sin asignarles un valor de lasi a ión.

Se puede apre iar que no hay ningún tipo de sobreajuste por lo que vemos que es una

ara terísti a propia del método que no depende de la fun ión de in ertidumbre utilizada. Sólo

tenemos que desta ar que los por entajes on respe to a los de la lasi a ión por dominan ia

fuerte son algo menores, pero siguen siendo elevados on respe to al ingenuo Bayes y el C4.5

en asi todas las bases de datos. Sólo para TU2 tenemos resultados ligeramente por en ima de

éstos, pero a diferen ia de ellos on la ausen ia del sobreajuste omentada.

Resultados. Método doble Resultados. Otros métodos

Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3

Breast 98.0 1.3 96.9 0.9 97.8 97.3 97.6 95.1

Cleveland nom. 64.6 5.0 68.8 6.1 63.9 57.6 69.3 51.5

Cleveland 72.8 21.0 69.9 24.7 78.0 50.5 73.5 54.6

Pima 79.7 0.2 80.5 0.0 76.4 74.6 79.9 75.0

Heart 91.7 6.1 94.1 5.6 87.8 82.2 83.3 75.6

Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2

Australian 90.8 0.6 89.0 0.9 87.6 86.1 89.3 83.0

Vote1 96.1 6.6 96.9 5.9 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

Tabla 5.10: Resultados método doble para TU1 con dominacia fuerte

5.4.2.2. Resultados del método doble

En las tablas 5.10, 5.11, 5.12, 5.13 y 5.14 podemos ver los resultados del método doble on

las mismas bases de datos y dominan ia fuerte.

Podemos apre iar que la diferen ia on los resultados del método simple es bastante pe-

queña, aunque se observa una ligera mejora. Quizá donde la diferen ia mayor está todavía

uando se usa TU5 en la que esta diferen ia es algo mayor teniendo menor por entaje de no

lasi ados, omo se puede apre iar al omparar las tablas 5.7 y 5.14. En esta última todavía

vemos que los por entajes de no lasi ados son muy altos en la mayoría de las bases de datos.

Al igual que hi imos on el método simple, vamos a ver los resultados del método doble

on todos los valores lasi ados. Podemos observar éstos en la tabla 5.15

Si omparamos los resultados de la tabla 5.9 on los de la tabla 5.15 vemos que apenas

hay diferen ia en las olumnas de TU1 y TU2 en ambas tablas. En la mayoría de los asos

los por entajes de a iertos permane en iguales y sólo en algunos asos on retos (por ejemplo

en la base de datos Cleveland on TU3) mejoran estos por entajes. Los valores para TU4 se

a er an a los de TU3, uando existía una diferen ia apre iable en el método simple.

Esta mejora, en general, no se ha sido produ ido gra ias a un aumento de la rami a ión,

in luso, en general, lo que o urre es que la in ertidumbre disminuye más rápidamente, por lo

que al nal tenemos árboles más simples. Para ha ernos una idea de ésta podemos observar

la tabla 5.16 y ompararla on la tabla 5.8. Los valores son los mismos ex epto para TU5 que

Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3

Breast 96.7 0.4 96.0 0.4 97.8 97.3 97.6 95.1

Cleveland nom. 59.3 6.4 661.5 8.0 63.9 57.6 69.3 51.5

Cleveland 67.4 12.5 68.7 14.4 78.0 50.5 73.5 54.6

Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0

Heart 87.3 12.2 89.5 15.6 87.8 82.2 83.3 75.6

Hepatitis 83.1 0.0 85.7 0.0 96.2 81.5 96.2 85.2

Australian 88.7 2.0 85.8 2.2 87.6 86.1 89.3 83.0

Vote1 93.4 4.0 93.1 3.0 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3

Breast 97.8 1.0 96.9 0.9 97.8 97.3 97.6 95.1

Cleveland nom. 63.6 12.8 69.4 14.1 63.9 57.6 69.3 51.5

Cleveland 73.2 23.5 69.9 24.7 78.0 50.5 73.5 54.6

Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0

Heart 90.7 4.4 93.0 4.4 87.8 82.2 83.3 75.6

Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2

Australian 88.9 0.4 86.0 0.8 87.6 86.1 89.3 83.0

Vote1 94.0 5.0 93.8 4.4 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

Breast Can er 75.5 0.0 81.7 0.0 78.2 74.2 81.5 75.3

Breast 97.8 1.3 96.9 0.9 97.8 97.3 97.6 95.1

Cleveland nom. 59.3 6.4 61.5 8.0 63.9 57.6 69.3 51.5

Cleveland 65.9 12.0 67.5 14.4 78.0 50.5 73.5 54.6

Pima 78.7 0.1 78.9 0.0 76.4 74.6 79.9 75.0

Heart 90.7 4.4 93.0 4.4 87.8 82.2 83.3 75.6

Hepatitis 96.4 5.0 94.7 9.5 96.2 81.5 96.2 85.2

Australian 88.9 0.4 86.0 0.8 87.6 86.1 89.3 83.0

Vote1 94.0 5.0 93.8 4.4 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

Breast Can er 90.3 16.3 93.5 15.0 78.2 74.2 81.5 75.3

Breast 99.1 2.1 98.6 2.2 97.8 97.3 97.6 95.1

Cleveland nom. 75.7 24.4 74.4 17.1 63.9 57.6 69.3 51.5

Cleveland 83.1 32.0 81.2 28.9 78.0 50.5 73.5 54.6

Pima 86.8 14.4 87.0 16.0 76.4 74.6 79.9 75.0

Heart 96.3 10.5 96.4 7.7 87.8 82.2 83.3 75.6

Hepatitis 96.6 0.0 95.2 0.0 96.2 81.5 96.2 85.2

Australian 94.9 6.3 93.9 7.3 87.6 86.1 89.3 83.0

Vote1 99.0 4.6 99.2 4.4 87.6 88.9 94.5 88.3

Soybean-small 100.0 0.0 100.0 0.0 100 93.8 100 100

Breast Can er 75.5|81.7 75.5|81.7 75.5|81.7 75.5|81.7 87.0|91.4

Breast 97.6|96.9 96.5|96.0 97.4|96.9 97.4|96.9 98.7|98.7

Cleveland nominal 64.9|68.7 57.9|60.6 60.4|66.7 57.9|60.6 75.7|74.7

Cleveland 68.0|67.0 64.0|64.9 66.0|64.9 63.5|64.9 83.0|80.4

Pima 79.7|80.5 78.7|78.9 78.7|78.9 78.7|78.9 83.0|82.4

Heart 90.0|93.3 83.3|85.6 89.4|91.1 89.4|91.1 93.3|94.4

Hepatitis 96.6|95.2 83.1|85.7 96.6|95.2 96.6|95.2 96.6|95.2

Australian 90.9|89.1 88.0|85.2 88.9|86.1 88.9|86.1 93.5|91.7

Vote1 94.0|94.8 92.0|91.9 92.3|91.9 92.3|91.9 98.3|98.5

Soybean-small 100|100 100|100 100|100 100|100 100|100

Tabla 5.15: Resultados, para cada una de las funciones de incertidumbre, del método doble con clasificación

completa

disminuye notablemente para la base de datos Cleveland.

Base de datos TU1 TU2 TU3 TU4 TU5 N de hojas totales

Breast 10 7 9 9 17 512

Cleveland 17 8 14 11 94 635904

Tabla 5.16: Número de hojas de los árboles de clasificación obtenidos con el método doble y cada una de las

funciones de incertidumbre

Podemos preguntarnos si es rentable el aumento de la omplejidad del método de búsqueda

de la variable que genera menos in ertidumbre, si los resultados son similares. Para ello vamos

a ne esitar omo ejemplo una base de datos arti ial: la Monks1, utilizada ampliamente en el

área de la lasi a ión.

La base de datos Monks1

Monks1 es una base de datos que tiene seis variables. De forma que la variable lasi ada,

on dos estados posibles a0 y a1. Vale a1 uando son iguales las variables primera y segunda o

uando la uarta vale el primero de sus uatro asos posibles. En el resto de los asos vale a0.

Base de Datos NB(Tr) NB(Ts) C4.5(Tr) C4.5(Ts)

Monks1 79.8 71.3 83.9 75.7

Tabla 5.17: Porcentajes de los métodos C4.5 e ingenuo Bayes sobre Monks1

Base de Datos MO(Tr) MO(Ts) MA(Tr) MA(Ts)

Monks1 81.5 80.6 94.4 91.7

Tabla 5.18: Porcentajes de los métodos de incertidumbre simple y doble sobre Monks1 con TU1

Este tipo de dependen ia es muy difí il de en ontrar por los distintos métodos de lasi a ión

por lo que las bases de datos arti iales suelen rear problemas.

En la tabla 5.17 en ontramos los resultados de C4.5 y del ingenuo Bayes.

Y en la tabla 5.18 tenemos los resultados de los métodos simple, al que llamamos también

original (MO), y del doble, al que llamamos su ampliado (MA), on todos los asos lasi ados

para TU1. Las mismas diferen ias se pueden observar para las demás fun iones de in ertidum-

bre, siguiendo la línea de las anteriores bases de datos, donde desta an los valores obtenidos

on TU5 que dan lugar a un por entaje de no lasi ados muy alto sobre todo en el simple.

Estos resultados los podemos ver en las tablas 5.19 y 5.20

Podemos apre iar varias osas interesantes. Hay un sobreajuste evidente en el C4.5 y en el

ingenuo Bayes osa que no o urre en nuestros métodos. Además el por entaje de a iertos en el

onjunto de test es mayor en MO, pero todavía hay una apre iable diferen ia entre todos los

anteriores y el MA. In luso llega a tener una diferen ia tan importante omo del 20.4% on

respe to al ingenuo Bayes, lo que maniesta la poten ia del método.

Observando las tablas 5.19 y 5.20 vemos que no existe diferen ia entre los valores para TU1,

TU3 y TU4, siendo inferior a éstos los de TU2 y superior los de TU5. En este último tenemos

Método simple Método doble

Fun ión Training UC(Tr) Test UC(Ts) Training UC(Tr) Test UC(Ts)

TU1 81.3 0.8 79.4 5.5 94.1 4.0 90.0 16.6

TU2 75.8 0.0 72.2 0.0 89.3 16.6 85.7 22.2

TU3 81.3 0.8 79.4 5.5 94.1 4.0 90.0 16.6

TU4 81.3 0.8 79.4 5.5 94.1 4.0 90.0 16.6

TU5 92.0 9.6 80.5 18.0 96.6 4.0 93.3 16.6

Tabla 5.19: Porcentajes sobreMonks1 de los métodos simple y doble para todas la funciones de incertidumbre

y con dominancia fuerte

Método simple Método doble

Fun ión Training Test Training Test

TU1 81.5 80.6 94.4 91.7

TU2 75.8 72.2 83.1 83.3

TU3 81.5 80.6 94.4 91.7

TU4 81.5 80.6 94.4 91.7

TU5 89.5 80.6 96.7 94.4

Tabla 5.20: Porcentajes sobreMonks1 de los métodos simple y doble para todas la funciones de incertidumbre

con clasificación completa

una rami a ión de 21 hojas en el método doble frente a las 6 de TU2 y las 18 de TU1, TU3

y TU4, lo que permite a TU5 en ontrar la rela ión asi ompleta entre las variables, sin llegar

a ser grande la diferen ia on TU1, TU3 y TU4.

5.5. Con lusiones

Hemos utilizado las medidas vistas en anteriores apítulos para onstruir árboles de lasi-

a ión. El pro eso que utilizamos para onstruir di hos árboles no sufre de sobreajuste tal

y omo hemos visto, on independen ia de la fun ión de in ertidumbre utilizada. Éste es el

problema más fre uente en los métodos de lasi a ión.

Nuestro método simple al anza un nivel onsiderable de a iertos si lo omparamos on los

itados ingenuo Bayes y C4.5, que normalmente son punto de referen ia en este ampo. Esto

demuestra que nuestro enfoque de ontrolar la onstru ión del árbol usando un modelo de

probabilidades impre isas y midiendo la antidad global de in ertidumbre es una propuesta

que, aparte de ser intuitiva, propor iona muy buenos resultados en la prá ti a.

El método doble justi a su existen ia de a uerdo a que tiene algunas ventajas sobre el

simple que enumeramos a ontinua ión:

· Nun a empeora el resultado del método simple para ualquier base de datos.

· Rami a, en general, menos que el método simple.

· En aso de lasi a ión por dominan ia fuerte, tiene menor por entaje de no lasi ados on

respe to al simple.

· En uentra rela iones entre variables que el simple no es apaz de hallar.

En su ontra el método doble es más omplejo de apli ar puesto que en ada nodo el simple

realiza un número de ál ulos de onjuntos de intervalos de probabilidad, para al ular el valor

de in ertidumbre en di ho nodo, igual a k, siendo éste el número de variables que quedan en la

base de datos que todavía no han apare ido en la rama del nodo. Sin embargo, el doble añade

a ese número otra antidad

k(k−1)2 de ál ulos iguales.

Es ierto que en algunas base de datos la antidad de no lasi ados es muy amplia si

observamos, por ejemplo, la base de datos Cleveland donde la variable a lasi ar tiene 5 asos

posibles. Podemos pensar que el método de alguna forma falla en este aso pero si pensamos

que en mu has hojas tenemos que existen dos lases no dominadas tenemos que realmente no

es así. Como se puede apre iar los por entajes de a iertos on todos lasi ados disminuyen

muy po o, si tenemos en uenta el alto por entaje de no lasi ados. Esto ha e que realmente

tengamos bastante informa ión pero, por el riterio usado en la hojas, la perdemos. En estos

asos pare e más razonable usar un lasi ador redal, omo propone Zaalon [111.

Otro detalle a tener en uenta es el aumento de a iertos que o urre uando se lasi an

todos los datos en Heart o en Hepatitis, on ualquier fun ión de in ertidumbre ex epto on

TU2 que no varía, debido a que existen mu hos registros úni os en la base de datos que dan

lugar a fre uen ias de 1 y el resto 0, lo que motiva la no lasi a ión. Al forzar la lasi a ión

obtenemos en esos asos un 100% de a iertos aumentando el a ierto global, aunque esto es

motivo para que aumente el sobreajuste.

Finalmente remar aremos los buenos resultados que hemos obtenido on la fun ión de

in ertidumbre TU5, sólo el máximo de la entropía de Shannon en el onjunto de intervalos de

probabilidad. Aunque bien hemos observado que rami a mu ho más que los anteriores, no

lasi a en mayor por entaje y tiene un ligero sobreajuste en algunas bases de datos que aún

siendo bastante pequeño, es el mayor de todas las fun iones de in ertidumbre, agudizándose

este defe to en el método simple on dominan ia fuerte para Monks1.

Con lusiones y trabajos futuros

En términos generales, podemos de ir que en este trabajo se ha realizado lo siguiente:

1.- Hemos estudiado tanto el omportamiento omo las propiedades de distintas medidas de in er-

tidumbre en la teoría de la eviden ia. Hemos arreglado pequeñas in ongruen ias que apare en

en la medida de in ertidumbre total que mejor queda estable ida en esta teoría, añadiendo un

fa tor de orre ión basándonos en la distan ia de Kullba k.

2.- Hemos ampliado la fun ión máximo de la entropía de Shannon para onjuntos onvexos de

distribu iones de probabilidad, demostrando que veri a las mismas propiedades para este

tipo general de onjuntos. Hemos obtenido un algoritmo que obtiene, de forma e iente, este

valor para onjuntos de intervalos de probabilidades.

3.- Hemos demostrado que la fun ión de noespe i idad de Hartley que fue ampliada para po-

sibilidades y posteriormente para la teoría de la eviden ia, también se puede ampliar para

onjuntos onvexos de distribu iones de probabilidad, veri ando un onjunto de propiedades

similar.

4.- Se han estable ido una serie de medidas omparativas entre dos representa iones, a partir de

onjuntos onvexos de distribu iones de probabilidad, de una misma informa ión.

5.- Se ha demostrado la utilidad de las medidas de in ertidumbre para onjuntos onvexos de

distribu iones de probabilidad, utilizándolas para la onstru ión de árboles de lasi a ión.

Los métodos de lasi a ión obtenidos no sufren de sobreajuste y tienen buenos por entajes

de a iertos.

Se han umplido los objetivos mar ados al omienzo de este trabajo. En el amino a on-

seguirlos nos hemos en ontrado on distintas di ultades y on algunas posibilidades futuras

de trabajo. Ahora vamos ha er una breve des rip ión por apítulos del trabajo presentado en

esta memoria:

206 Conclusiones y trabajos futuros

En el primer apítulo hemos presentado las diferentes teorías de probabilidades impre isas,

basándonos en la rela ión de generaliza ión realizadas en Walley [100. Hemos he ho una breve

des rip ión de algunas de ellas, delimitando unas de otras a partir de ejemplos. Nos hemos

entrado en las que luego nos iban a servir para umplir los objetivos de esta memoria: la

teoría de la eviden ia, teoría de onjuntos de intervalos de probabilidad y onjuntos onvexos

de distribu iones de probabilidad. Se han denido, en la primera y en la última, las opera-

iones bási as ne esarias para trabajar on las propiedades de las medidas de in ertidumbre

que posteriormente se presentarán. Opera iones tales omo ombina ión, marginaliza ión e

independen ia.

En el segundo apítulo hemos he ho una breve des rip ión del estudio de la in ertidumbre

en la teoría de la probabilidad, teniendo omo aspe to prin ipal el análisis de la fun ión de

Harley y el de la entropía de Shannon. Con ello hemos justi ado el origen de las propiedades

que una medida de in ertidumbre debe umplir dentro de la teoría de la eviden ia, partiendo

de las que umple la entropía de Shannon para probabilidades. Se han des rito las medidas

de in ertidumbre más importantes en la teoría de la eviden ia, según nuestro riterio, para

medir los tipos de in ertidumbre en ontrados. Hemos analizado su omportamiento y hemos

visto qué onjunto de propiedades bási as veri an. Se ha analizado la que pare e tener mejor

omportamiento, la fun ión de in ertidumbre total de Maeda e I hihashi. A partir de un

ejemplo vemos que ésta no tiene un omportamiento intuitivamente totalmente satisfa torio y

se ha arreglado el problema en ontrado introdu iendo un fa tor de orre ión basándonos en

la distan ia de Kullba k. Se han demostrado las propiedades de éste, donde queda maniesto

que umple las propiedades bási as para una fun ión para tal n ex epto la aditividad. Hemos

expli ado el sentido que tiene tal fun ión y ha quedado laro su ne esidad para un tipo de

representa iones en la teoría de la eviden ia, los asigna iones bási as de probabilidad que

ontienen a la distribu ión uniforme, probabilidad donde se al anza el valor máximo de la

entropía de Shannon.

En el apítulo ter ero se han estudiado los tipos de in ertidumbre que se pueden en ontrar

en un onjunto onvexo general de distribu iones de probabilidad: entropía y no-espe i idad,

omo o urría en la teoría de la eviden ia. Hemos justi ando su existen ia a partir de ejem-

plos. Se han analizado las propiedades que deben umplir las medidas de in ertidumbre de

ada tipo que se nos presenta en esta teoría. Se ha des rito el amino seguido para determinar

qué fun iones nos sirven mejor para medir ada tipo de in ertidumbre, desde el punto de vis-

ta intuitivo y matemáti o, dese hando algunas que intuitivamente pare en orre tas. Hemos

visto que hay fun iones que aunque matemáti amente fun ionen bien, umplen un onjunto

de propiedades bási as ne esarias, tiene problemas a la hora de medir lo que deben, tal omo

o urre on la fun ión de no-espe i idad máxima diferen ia de entropías de un onvexo. Hemos

determinaremos fun iones que amplían las mejores estable idas en la teoría de la eviden ia,

el máximo de la entropía de Shannon (entropía) y la no-espe i idad de Dubois y Prade (no-

espe i idad), umpliendo así el prin ipio de in ertidumbre invariante. Hemos demostrado que

veri an un onjunto similar de propiedades bási as al que veri aban en la teoría de la eviden-

ia, apoyándonos en la fun ión de in rementos nitos, herramienta importante en el desarrollo

matemáti o de las demostra iones más omprometidas de esta memoria. Finalmente se ha

estable ido un algoritmo, importante para los siguientes resultados, que obtiene el máximo de

la entropía para onjuntos de intervalos de probabilidad. Con lo que simpli amos el ál ulo

de este máximo en este onjunto, al igual que ya existía en la teoría de la eviden ia.

En el uarto apítulo se han estable ido riterios de ompara ión entre dos representa iones

de onjuntos onvexos de distribu iones de probabilidad, obtenidas a partir de la misma infor-

ma ión. Estable imos qué propiedades debe veri ar una distan ia de in onsisten ia, que mide

la in onsisten ia entre dos representa iones in onsistentes; un índi e de in lusión, que mide

qué parte de la informa ión que representa un onvexo está englobada en la que representa

el otro y una distan ia informativa, para medir la similitud entre dos representa iones onsis-

tentes. Hemos visto que las familias de las fun iones anteriores son no va ías, ayudándonos

de fun iones de in ertidumbre del anterior apítulo. Para on luir se han visto las rela iones

existentes entre ellas.

Finalmente, en el quinto apítulo se han expuesto dos métodos de lasi a ión a partir de

árboles de lasi a ión. Los métodos tienen una misma losofía pero distinta omplejidad. He-

mos expuesto un método simple y otro al que se le ha llamado doble por la forma de obtener la

variable que se introdu e en ada hoja. Ambos obtienen árboles de lasi a ión simples donde

en ada nodo introdu iremos una variable de la base de datos utilizada para el aprendizaje.

Se ha utilizado la distribu ión de Diri hlet impre isa para determinar un onjunto onvexo

de distribu iones de probabilidad a partir de una muestra, que realmente es un onjunto de

intervalos de probabilidad. Sobre los anteriores hemos apli ado las fun iones de in ertidumbre

del apítulo ter ero para obtener un árbol ompleto, donde en las hojas se ha obtenido un

valor de la variable a lasi ar según dos riterios: dominan ia fuerte y máxima fre uen ia.

Éste último riterio nos ha servido para obtener lasi a iones ompletas para, nalmente, al

experimentar nuestros métodos on bases de datos ono idas poder omparar los resultados

on los que obtienen, sobre las mismas, métodos bien estable idos: el ingenuo bayes y el C4.5.

Hemos visto omo aspe to prin ipal que nuestros métodos no sufren el sobreajuste pade ido

por los métodos anteriores y obtienen mejores resultados. Se han utilizado, en la experimenta-

ión, distintas fun iones de in ertidumbre total, on resultados distintos, en los que desta an

algunas de ellas en el por entaje alto de a iertos. Se ha visto que el método doble, aunque

tiene mayor omplejidad, tiene, en general, mejores o iguales resultados que el simple on la

diferen ia de que rami a menos. Desta a el doble sobre el simple en la diferen ia de a ier-

tos, sobre todo uando existen rela iones dire tas entre dos o más variables on la variable a

lasi ar, omo se ha demostrado en la experimenta ión on una base de datos arti ial.

Trabajos Futuros

En el amino seguido para al anzar nuestro objetivos hemos visto algunas posibilidades de

trabajos futuros, así omo de aren ias en algunos on eptos. Vamos a ha er una des rip ión

de lo que omentamos, que nos pueden servir, en mayor o menor importan ia, omo trabajos

a plantear en el futuro:

- Plantear una fun ión de in ertidumbre total dentro de la teoría de la eviden ia, que sea apaz

de tener mejor omportamiento que la de Maeda e I hihashi sin ne esidad de apli ar fa tores

de orre ión.

- Analizar la posibilidad planteada en el apítulo 3 de des omposi ión de onvexos en elementos

simples, o irredu ibles. Lo que nos permitiría denir fun iones de in ertidumbre para esos

elementos simples, que luego nos lleven a al ular el valor de in ertidumbre para ualquier

eviden ia. Esta des omposi ión sería también utilizada para ualquier onjunto onvexo de

distribu iones de probabilidad en general.

- Estudiar la fun ión U-un ertainty, original de Higashi y Klir, que hemos visto que denida en

prin ipio para medir in ertidumbre en la teoría de la posibilidad, ha sido ampliada por Dubois

y Prade para eviden ias y por nosotros para onjuntos onvexos en general. Hemos visto que,

a partir de ejemplos, esta fun ión, pare e umplir una interesante propiedad de aditividad. Lo

que permite ayudarnos en la des omposi ión de onvexos anteriormente itada.

- Justi ar la deni ión de independen ia utilizada para la propiedad de la aditividad de una

fun ión de in ertidumbre. Ver uál sería el mejor sentido que se ajusta a nuestros nes.

- Quizá la posibilidad más interesante, para trabajos en el futuro, nos la ofre e el método de

lasi a ión expuesto pues admite mu has posibilidades:

(1) Apli ar a los árboles de lasi a ión métodos de poda, que simpliquen la estru tura

reada.

(2) Utilizar nuestros métodos on otras fun iones in ertidumbre, que mejoren, omo ya he-

mos di ho en párrafos anteriores, el fun ionamiento de las estable idas.

(3) Mez lar nuestro método on el ingenuo Bayes, que omo vemos obtiene muy buenos

resultados de forma muy simple.

(4) Apli ar nuestro método a bases de datos on datos perdidos, tal omo apli a Zaalon

Bibliografía

[1 J. Abellan y S. Moral. Completing a total un ertainty measure in D-S theory. Int. J.

General System, 28:299-314, 1999.

[2 J. Abellan y S. Moral. A non-spe i ity measure for onvex sets of probability distri-

butions. International Journal of Un ertainty, Fuzziness and Knowledge-Based Systems,

8:357-367, 2000.

[3 J. Abellán y S. Moral. Using the Total Un ertainty Criterion for Building Classi ation

Trees. Pro eeding of the International Symposium of Impre ise Probabilities and Their

Appli ations, 1-8, 2001.

[4 J. Abellán y S. Moral. Constru ión de árboles de lasi a ión on probabilidades impre-

isas. A tas de la Conferen ia de la Aso ia ión Española para la Inteligen ia Arti ial,

2:1035-1044, 2001.

[5 J. Abellán y S. Moral. Maximum entropy for redal sets. Enviado a International Journal

of Un ertainty, Fuzziness and Knowledge-Based Systems, 2002.

[6 S. A id. Métodos de aprendizaje de Redes de Creen ia. Apli a ión a la Clasi a ión.

PhD thesis, Universidad de Granada, 1999.

[7 J. Berger. An Overview of Robust Bayesian Analysis (with dis ussion). Test, 3:5-124,

[8 L. Breiman, J.H. Friedman, R.A. Olshen, y C.J. Stone. Classi ation and Regression

Trees. Wadsworth Statisti s, Probability Series, Belmont, 1984.

[9 L.M. de Campos. Cara teriza ión y estudio de medidas e integrales difusas a partir de

probabilidades. PhD thesis, Universidad de Granada, 1986.

212 Bibliografía

[10 L.M. de Campos, J.F. Huete y S. Moral. Probability Intervals: a Tool for Un ertain Rea-

soning. International Journal of Un ertainty, Fuzziness and Knowledge-Based Systems,

2:167-196, 1994.

[11 L.M. de Campos y S. Moral. Independen e Con epts for Convex Sets of Probabilities.

Pro eedings of the 11th Conferen e on Un ertainty in Arti ial Intelligen e, P. Besnard

y S. Hanks, eds., 108-115, Morgan & Kaufmann, 1995.

[12 J.E. Cano, S. Moral y J.F. Verdegay-López. Combination of Upper and Lower Proba-

bilities. Pro eedings of the 7th Conferen e on Un ertainty in Arti ial Intelligen e, B.

DÁmbrosio, P. Smets y P.Bonissone, eds., 61-68, Morgan & Kaufmann, 1991.

[13 A. Cano. Propaga ión aproximada de intervalos de probabilidad en grafos de depeden-

ias. PhD thesis, Universidad de Granada, 1999.

[14 R.E. Cavallo y G.J. Klir. Re onstru tion of possibilisti behaviour systems. Fuzzy Sets

and Systems, 8:175-197, 1982.

[15 G. Cestnik, I. Kokonenko y I. Bratko. ASSISTANT-86: A knowledge-eli ita ion tool for

sophisti ated users. Pro . of EWSL-87. Progress in Ma hine Learning, 31-45, 1987.

[16 G.J. Chaitin. Information, Randomness and In ompleteness: Papers on Algorithmi In-

formation Theory. World S ienti , Singapore, 1987.

[17 A. Chateauneuf y J.Y. Jaray. Some hara terizations of lower probabilities and other

monotone apa ities through the use of Möbius Inversion. Math. So . S ., 17:263-283,

[18 G. Choquet. Théorie des Capa ités. Ann. Inst. Fourier, 5:131-292, 1953/54.

[19 R. Christensen. Entropy Minimax Sour ebook (4 Vols.). Entropy Limited, Lin oln, Mas-

sa husetts, 1980-81.

[20 R. Christensen. Entropy minimax multivariate statisti al modeling-I: Theory. Intern. J.

of General Systems, 11:231-277, 1985.

[21 R. Christensen. Entropy minimax multivariate statisti al modeling-II: Appli ations. In-

tern. J. of General Systems, 12:227-305, 1986.

[22 P.R. Cohen y E.A. Feigenbaum. The handbook of Arti ial Intelligen e (tomo 3).

Addison-Wesley, 1982

Bibliografía 213

[23 I. Couso, S. Moral y P. Walley. Examples of Independen e for Impre ise Probabilities.

Pro eedings of the First International Symposium on Impre ise Probabilities and Their

Appli ations (ISIPTA'99), 1999.

[24 M. Delgado y S. Moral. A denition of in lusion for eviden es. Fuzzy Mathemati s 7:81-

87, 1897.

[25 A.P. Dempster. Upper and Lower Probabilities Indu ed by a Multivaluated Mapping. Ann.

Math. Statisti , 38:325-339, 1967.

[26 A.P. Dempster. Upper and lower probability inferen es based on a sample from a nite

univariate population. Biometrika, 54:515-528, 1967.

[27 L. DeRobertis y J. Hartigan. Bayesian Inferen e Using Intervals of Measures. Annals of

Statisti s, 14:461468, 1986.

[28 R.O. Duda y P.E. Hart. Pattern lassi ation and s ene analysis. John Willey and Sons,

New York, 1973.

[29 D. Dubois y H. Prade. A Note on Measure of Spe i ity for Fuzzy Sets. BUSEFAL,

19:8389, 1984.

[30 D. Dubois and H. Prade. Properties and Measures of Information in Eviden e and Pos-

sibility Theories. Fuzzy Sets and Systems, 24:183196, 1987.

[31 D. Dubois y H. Prade. Possibility Theory. Plenum Press, New York, 1988.

[32 D. Dubois y H. Prade. A Survey of Belief Revision and Updating Rules in Various

Un ertainty Models. International Journal of Intelligent Systems, 9:61-100, 1994.

[33 H. Edelsbrunner. Algorithms in Combinatorial Geometry. Springer Verlag, Berlin, 1987.

[34 U.M. Fayyad y K.B. Irani. Multi-valued Interval Dis retization of Continuous-valued

Attributes for Classi ation Learning. Pro eeding of the 13th International Joint Confe-

ren e on Arti ial Intelligen e, Morgan Kaufmann, San Mateo, 1022-1027, 1993.

[35 R.M. Fano. Transmission of Information. The M.I.T. Press, Cambridge, Massa husetts,

[36 N. Friedman y M. Goldszmidt. Building lassiers using Bayesian networks. AAAI-96

Conferen e, 1277-1284, 1996.

[37 P. Gil. Teoría matemáti a de la Informa ión. ICE edi iones, 1981.

214 Bibliografía

[38 M. Grabis h, H. Nguyen y E. Walker. Fundamentals of Un ertainty Cal uli with Appli-

ations to Fuzzy Inferen e. Kluwer A ademi Publishers, Dordre ht, 1995.

[39 D. Harmane y G.J. Klir. Measuring Total Un ertainty in Dempster-Shafer Theory: a

Novel Approa h. Int. J. General System, 22:405-419, 1994.

[40 D. Harmane y G.J. Klir. Prin iple of un ertainty revisited. Pro . 4th Intern, Fuzzy

Systems and Intelligent Control Conf., Maui, Hawai, 331-339, 1996.

[41 R.V.L. Hartley. Transmission of information. The Bell Systems Te hni al Journal, 7:535-

563, 1928.

[42 M. Higashi y G.J. Klir, Measures of un ertainty and information based on possibility

distributions. Int. J. General System, 9:43-58, 1983.

[43 U. Höhle. Entropy with respe t to plausibility measures. Pro . 12th IEEE Inter. Symp.

on Multiple-Valued Logi , 167-169, 1982.

[44 R.C. Holte. Very simple lassi ation rules perform well on most ommonly used data-

sets. Ma hine Learning, 11:63-90, 1993.

[45 E.T. Jaynes. Papers on Probability, Statisti s and Statisti al Physi s. Rosenkrantz ed.,

D. Reidel, Dordre ht, 1983.

[46 J.N. Kapur. Maximum Entropy Models in S ien e and Engineering. John Willey, New

York, 1989.

[47 J.N. Kapur. Measures of Information and Their Appli ations. John Willey, New York,

[48 M. Karwan. Redundandy in Mathemati al Programming. Le ture Notes in E onomi s

and Mathemati al Systems, Berlin, Springer Verlag, 1991.

[49 G.J. Klir. Ar hite ture of Systems Problems Solving. Plenum Press, New York, 1985.

[50 G.J. Klir. Is there more to un ertainty than some probability theorists might have us

believe?. Intern. J. of General Systems, 15:347-378, 1989,

[51 G.J. Klir. Probability-possibility onversion. Pro . third IFSA Congress, Seattle, 408-411,

[52 G.J. Klir. A prin iple of un ertainty and information invarian e. Intern. J. of General

Systems, 17:249-275, 1990.

Bibliograf’ia 215

[53 G.J. Klir. Dynami aspe ts in re onstru tability analysis: The role of minimun un er-

tainty prin iples. Revue Internationale de Systemique, 4:33-43, 1990.

[54 G.J. Klir. Prin iples of un ertainty: What are they?. Why do we need them?. Fuzzy Sets

and Systems, 74:15-31, 1995.

[55 G.J. Klir y T. Folger. Fuzzy Sets, Un ertainty, and Information. Prenti e-Hall, Englewood

Clis, New Jersey, 1988.

[56 G.J. Klir y M. Mariano. On the uniqueness of porssibilisti s measure of un ertainty and

information. Fuzzy Sets and Systems, 24:197-219, 1987.

[57 G.J. Klir y B. Parviz. General re onstru tion hara teristi of probabilisiti and possibi-

listi systems. Intern. J. of Ma hine Systems, 25:367-397, 1986.

[58 G.J. Klir y B. Parviz. A note on the measure of dis ord. Pro . of the 8th Conferen e on

Arti ial Inteligen e, Morgan Kaufmann, San Mateo, California, 138-141, 1992.

[59 G.J. Klir y A. Ramer. Measures of Dis ord in the Dempster-Shafer Theory. Information

S ien es, 67:35-50, 1993.

[60 G.J. Klir y E.C. Way. Re onstru tability analisys: Aims, results, open problems. Systems

Resear h, 2:141-163, 1985.

[61 G.J. Klir y M.J. Wierman. Un ertainty-Based Information. Phisi a-Velag, 1998.

[62 G.J. Klir y B. Yuan. On nonspe i iy of fuzzy sets with ontinuous membership fun tions.

Pro . 1995 Intern. Conf. on Systems, Man and Cyberneti s, Van ouver, 25-29, 1995.

[63 A.N. Kolmogorov. Three approa hes to the quantitative denition of information. Pro-

blems of Information Transmission, 1:1-7, 1965.

[64 S. Kullba k. Information Theory and Statisti s. Dover, 1968.

[65 M.T. Lamata y S. Moral. Measures of Entropy in the Theory of Eviden e. Fuzzy Sets

and System, 12:193-226, 1987.

[66 P. Langley, W. Iba y K. Thompson. An analisis on Bayesian lassiers. National Con-

feren e on Arti ial Intelligen e, Menlo Park, CA: AAAI Press, 223-228, 1992.

[67 P. Langley y S. Sage. Indu tion of sele tive Bayesian lassier. Pro . of the 10th Confe-

ren e on Un ertainty in Arti ial Intelligen e, 399-406, Morgan Kaufmann, San Mateo,

216 Bibliografía

[68 J. Lawren e. Polytope volume omputation. Math. Comp., 57:259-271, 1991.

[69 Y. Maeda and H. I hihashi. A Un ertainty Measure with Monotoni ity under the Random

Set In lusion. Int. J. General Systems, 21:379-392, 1993.

[70 Y. Maeda, H.T. Nguyen y H.I hihashi. Maximum entropy algorithms for un ertainty

measures. Inter. J. of Un ertainty, Fuzziness and Knoledge-Based System, 1:69-93, 1993.

[71 T.H. Mattheiss y D.S. Rubin. A survey and omparison of methods for nding all verti es

of onvex polyhedral sets. Math. Oper. Res., 5:167-185, 1980.

[72 A. Meyerowitz, F. Ri hman y E.A. Walker, Cal ulating maximum-entropy probabilities

densities for belief fun tions. Int. J. of Un ertainty, Fuzziness and Knowledge-Based

Systems, 2:377-389, 1994.

[73 R. Mi halski. A theory and methodologie of indu tive learning. Arti ial Inteligen e,

111-161, 1983.

[74 S. Moral y L.M. de Campos. Updating Un ertain Information. Un ertainty in Knowledge

Bases, B. Bou hon-Meunier et al. eds., 58-67, Springer Verlag, 1991.

[75 S. Moral, S. y J. del Sagrado. Aggregation of Impre ise Probabilities. Aggregation and

Fusion of Imperfe t Information, B. Bou hon-Meunier, ed. Physi a-Verlag, Heidelberg,

162-168, 1997.

[76 H.T. Nguyen. On entropy on ramdom sets and possibility distributions. The Analisis of

Fuzzy Information, 1, 1986.

[77 H. Nyquist. Certain Fa tors Ae ting Telegraph Speed. Bell System Te h, 3:324, 1924.

[78 H. Nyquist. Certain Topi s in Telegraph Trnasmission Theory. AIEE Trans., 47:617,

[79 J. Pearl. Probabilisti reasoning in intelligent systems: networks of plausible inferen e.

Morgan Kaufmann, San Mateo, 1988

[80 F.P. Preparata y M.I. Shamos. Computational Geometry. An Introdu tion. Springer

Verlag, New York, 1985.

[81 J.R. Quinlan. Indu tion of de ision trees. Ma hine Learning, 1:81-106, 1986.

[82 J.R. Quinlan. Programs for Ma hine Learning. Morgan Kaufmann series in Ma hine

Learning, 1993.

Bibliografía 217

[83 A. Ramer. Uniqueness of information measure in the theory of eviden e. Fuzzy Sets and

Systems, 35:183-196, 1987.

[84 A. Ramer. Eu lidean spe i ity: two solutions and few problems. Pro . World Congress

of Intern. Fuzzy Systems Asso . Prague, Vol IV:268-271, 1997.

[85 A. Rényi. Probability Theory. North-Holland, Amsterdan, 1970.

[86 F. Rosenblatt. The Per eptron: A probabilisti model for information storage and orga-

nization in the brain. Psy hologi al Review, 65:386-408, 1958.

[87 D.S. Rubin. Finding redundant onstraints in sets of linear inequalities. Le ture Notes

in E onomi s and Mathemati al Systems, Berlin, Springer Verlag, 6:60-67, 1991.

[88 G. Shafer. A Mathemati al Theory of Eviden e. Prin eton University Press, Prin eton,

[89 C.E. Shannon. A mathemati al theory of ommuni ation. The Bell System Te hni al

Journal, 27:379-423,623-656, 1948.

[90 C.E. Shannon. Communi ation in Presen e of Noise. Pro . IRE, 37(10), 1949

[91 J.E. Shore y R.W. Johnson. Properties of ross-entropy minimization. IEEE Trans. on

Information Theory, 27:472-482, 1981.

[92 Ph. Smets. Belief Fun tion. Non-Standard Logi s for Automated Reasoning. Ph. Smets

and E.H. Mandani and D. Dubois and H. Prade editors, London, 1988.

[93 M. Tribus. Rational Des riptions, De isions and Designs. Pergamon Press, Osford, 1969.

[94 J. Vejnarová y G.J. Klir. Measures of Strife in Dempster-Shafer Theory. Int. J. General

System, 22:22-42, 1993.

[95 J.F. Verdegay-López. Representa ión y Combina ión de la Informa ión on In ertidum-

bre mediante Convexos de Probabilidades. Tesis Do toral, Universidad de Granada, 1997.

[96 P. Walley. Statisti al Reasoning with Impre ise Probabilities. Chapman and Hall, Lon-

don, 1991.

[97 P. Walley. Inferen es from multinomial data: learning about a bag of marbles (with dis-

ussion). Journal of the Royal Statisti al So iety, Series B, 58:3-57, 1996.

[98 P. Walley. Measures of Un ertainty in Expert Systems. Arti ial Intelligen e, 83:1-58,

218 Bibliografía

[99 P. Walley. A bounded derivative model for prior ignoran e about a real-valued parameter.

S andinavian Journal of Statisti s, 24:463-483, 1997.

[100 P. Walley. General Introdu tion to Impre ise Probabilities,

http://ensmain.rug.a .be/∼ipp/do umentation/introdu tion/introdu tion.html,

1997/98.

[101 P. Walley. The Eli itation and Aggregation of Beliefs. Inf. té ., University of Warwi k,

[102 Z. Wang, Z. y G.J. Klir. Fuzzy Measure Theory. Plenum Press, New York, 1992.

[103 L. Wasserman y J.B. Kadane. Bayesian Analisis in Statisti s and E onometri s. Willey,

New York, 549-555, 1996.

[104 S. Watanabe. Pattern re ognition as a quest for minimum entropy. Pattern re ognition,

13:381-387, 1981.

[105 S. Watanabe. Pattern Re ognition: Human and Me hani al. John Willey, New York,

[106 N. Wiener. Cyberneti s. The Te hnology Press of the Massa husetts Institute ot Te h-

nology and Willey and Sons, In ., New York, 1948.

[107 N. Wiener. Extrapolation, Interpolation and Smoothing of Stationary Time Series. The

Te hnology Press of the Massa husetts Institute ot Te hnology, Cambridge, Mass and

Willey and Sons, In ., New York, 1949.

[108 P.M. Williams. Bayesian onditionalisation and the prin iple of minimun information.

British J. for Philosophy of S ien e, 31:131-144, 1980.

[109 R.R. Yager. Entropy and Spe i ity in a Mathemati al Theory of Eviden e. Int. J. Ge-

neral Systems, 9:249-260, 1983.

[110 M. Zaalon. A Credal Approa h to Naive Classi ation. Pro eedings of the First Inter-

national Symposium on Impre ise Probabilities and their Appli ations, 405-414, 1999.

[111 M. Zaalon. The Naive Credal Classier. To appear in: Journal of Statisti al Planning

and Inferen e, 2001.

[112 M. Zaalon. Exa t Credal Treatment of Missing Data. To appear in: Journal of Statisti al

Planning and Inferen e, 2001.

INGENIERÍA - decsai.ugr.es · formato de esta memoria, así como a to dos ... distribuciones...

Documents

87- 87- 87- 87- 87- 87- 85- 87- 87- 87- 87- 87- 87- 87- 87

Reducción del ruido de cuantificación en señales suaves ...decsai.ugr.es/vip/files/presentations/mancera04pocs.pdf · DEFINIMOS DOS CONJUNTOS CONVEXOS (II) F fc: Conjunto de señales

1 – 87 S. Diglio. 2 – 87 S. Diglio 3 – 87 S. Diglio

Uitlegvanrechtshandelingen · 4 Uitleginhetcivieleproces–Mr.W.L.Valk/87 4.1 Uitlegenbewijs/87 4.1.1 Inleidendeopmerkingen/87 4.1.2 Verdelingvandebewijslast/88 4.1.3 Uitlegendebewijskrachtvanakten/89

E.T.S. INGENIERÍA INFORMÁTICA - Departamento de …decsai.ugr.es/Documentos/tesis_dpto/109.pdf · la curva de nolan ... reglas de asociaciÓn difusas.....42 3.3. problemÁtica que

Five Miniatures for Saxophone Quartet - fransabsil.nl · FIVE MINIATURES F.G.J. Absil & & & & # # 86 86 86 86 85 85 85 85 87 87 87 87 85 85 85 85 87 87 87 87 86 86 86 86 85 85 85

Скачать ГОСТ 26259-87 Цапфы направляющие. Конструкция и … · ГОСТ 26259-87 GOST 26259-87 Цапфы направляющие. Конструкция

INFLACIÓN GALOPANTE · hicieron en un momento de incertidum-bre porque coincidieron con la toma de posesión del nuevo presidente de Esta-dos Unidos (EE. UU.), Donald Trump, hecho

E.T.S. INGENIERÍA INFORMÁTICA Departamento de Ciencias …decsai.ugr.es/Documentos/tesis_dpto/74.pdf · 3.3 MODELO RELACIONAL DIFUSO ... CAPÍTULO 5 AMPLIACIÓN DEL MODELO FIRST*

Скачать ГОСТ 24796-87 Магнитофоны автомобильные. Общие ... · ГОСТ 24796-87 gost 24796-87 Магнитофоны автомобильные

HKO系列 HKO Series - regalbeloit.com.cn · 2970 2970 2970 2970 2975 2975 2975 2975 2980 2980 2980 2980 2982 2982 2982 2982 86 86 86 86 86 86 86 87 87 87 87 87 87 88 88 88 …

Предметный указательbegin.esxema.ru › wp-content › biblio › graf_1300_13.pdfTerøneparypHb1ÌÍ 87 8730 — 87 7 — 87.1 — npocro — U30JIPOBHb1h 87. -

Presentacion2011.ppt [Modo de compatibilidad]decsai.ugr.es/~castro/MCII/Transparencias/Presentacion.pdf · •Predicados primitivos recursivos •Operaciones iteradas y cuantificadores

CARS & TRUCKS NEWS 01-02 2021€¦ · H0 1/87 H0 1/87 H0 1/87 H0 1/87 H0 1/87 H0 1/87 H0 1/87 H0 1/87 CARS & TRUCKS HERBST-SPECIALS 2020 / AUTUMN SPECIALS 2020 Herpa Miniaturmodelle

0$/ &)# 54321 8761 &('%...0$/ &)# 54321 8761 &('% ... ((.>[7

Agenda Cultural EXPOSICIÓNcultura.fnac.es/descargas/agendas_fnac/enero18/01 A... · 2017-12-29 · aquella letra plagada de incertidum- ... espaldas Maryland regresa el 26 de Enero

SEGMENTACION DE FORMAS USANDO MODELOS DEFORMABLES MEMORIA ...decsai.ugr.es/Documentos/tesis_dpto/20.pdf · SEGMENTACION DE FORMAS USANDO MODELOS DEFORMABLES MEMORIA QUE PRESENTA

Departamento de Ciencias de la Computación e I.A ...decsai.ugr.es/~dpelta/ProgOrdenadores/tema1.pdfLa Evolución de la InformáticaLa Evolución de la Informática ((p )la prehistoria)

Ontologías para la Evaluación de Impacto Ambiental …decsai.ugr.es/Documentos/tesis_dpto/148.pdfLa memoria “Ontologías para la Evaluación de Impacto Ambiental de las actividades

Revista de Fitoterapia 2004; 4 (1): 87-93 87