Taller de Probabilidad Parte 1 - … · Distribuciones de probabilidad en la práctica - Parte 1 Dr. Diego Hernández Rangel ITAM Septiembre 2011

Distribuciones de probabilidad

en la práctica - Parte 1

Dr. Diego Hernández Rangel

ITAM

Septiembre 2011

Temas a tratar

• Riesgo, aleatoriedad y probabilidad

• Probabilidad y seguros

• Modelos y estimación

• Buenos hábitos

Riesgo y probabilidad


• Un punto central en toda actividad económica es la toma de decisiones en condiciones que involucran riesgo.

• La existencia del riesgo justifica – La razón de existir de ciertas industrias – creación de

valor

– La existencia de precios

– La determinación del valor de una empresa

– El costo del capital

• Históricamente no siempre hemos evolucionado en la misma dirección en la administración de riesgos.


• Desde la perspectiva científica, preguntarnos qué es riesgo es tan inútil como preguntarnos qué es la gravedad.

• Al físico le interesa el efecto de la gravedad en un sistema (ej órbitas planetarias, difusión de partículas, etc.)

• Al actuario le interesa el efecto del riesgo en un sistema económico, para medirlo y controlar dichos efectos.


• El análisis cuantitativo del riesgo se da en el contexto de modelos de decisión.

• Parten de un conjunto de decisiones, con múltiples escenarios a los cuales se asocian probabilidades y consecuencias (monetarias).

• A partir de ellos se proponen criterios de decisión (ganancia promedio, minimax, maximin, etc.) que finalmente son criterios de creación de valor y determinantes de precios y capital.


• Al incorporar aspectos psicológicos surgen modelos que mejoran la explicabilidad (utilidad esperada y similares).

• Probabilidad surge como un elemento de construcción. En ocasiones de forma natural y en otras de forma artificial, como lo hacemos en finanzas con los argumentos de arbitraje.


• Tanto en seguros como en finanzas, la

“medición de riesgo” se refiere a

cuantificar características de la

distribución de probabilidades de las

pérdidas o ganancias.

• Ej. VaR, tail-VaR, Riesgo de cobertura,

etc.

Aleatoriedad y probabilidad


• Nociones de aleatoriedad:

– Problema de medición

– Complejidad

– Carencia de explicación

– Combinación de las 3

• Misma matemática para tratarlas.

• Posibles diferencias en la interpretación.


• Asignación de probabilidades:

– Principio de razón insuficiente

– Probabilidades subjetivas

– Argumentos físicos

– Análisis del peor caso (ej máx. Entropía)

– Búsqueda de simplicidad (+robustez)

– Medición de fenómenos repetibles

(Estadística!)

Probabilidad y seguros

Ley de grandes números

• Sin entrar en formalidades matemáticas,

la Ley de Grandes Números (LGN) dice

que si tienes una sucesión de números

provenientes del mismo fenómeno

aleatorio, los promedios parciales de

dichos números se aproximarán

“gradualmente” a la media de la

distribución de probabilidades que rige al

fenómeno.

Ley de grandes números Promedios parciales

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

11 8

15

22

29

36

43

50

57

64

71

78

85

92

99

10

6

11

3

12

0

12

7

13

4

14

1

14

8

15

5

16

2

16

9

17

6

18

3

19

0

19

7

20

4

21

1

21

8

22

5

23

2

23

9

24

6

25

3

26

0

26

7

27

4

28

1

28

8

29

5

Núm. lanzamientos


• Apliquemos esta idea a un sistema de seguros: Toma un número "grande" de asegurados, cada uno expuesto a riesgos tan similares que puedan considerarse idénticos. Si el actuario ha realizado su trabajo correctamente, dispone de estimaciones certeras sobre las probabilidades de cada escenario.

• Entonces, la LGN indica que el costo promedio de las pérdidas sufridas por asegurado se aproximará al promedio calculado con las probabilidades que estimó el actuario.


• Considera pólizas de seguro de vida que

pagan $100,000 en caso de fallecer y la

probabilidad de morir es de 0.05 igual

para todos.

• ¿A qué valor debe aproximarse la

sucesión de promedios?

Ley de grandes números Promedios parciales

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

1

49

97

14

5

19

3

24

1

28

9

33

7

38

5

43

3

48

1

52

9

57

7

62

5

67

3

72

1

76

9

81

7

86

5

91

3

96

1

10

09

10

57

11

05

11

53

12

01

12

49

12

97

13

45

13

93

14

41

14

89

15

37

15

85

16

33

16

81

17

29

17

77

18

25

18

73

19

21

19

69

Núm. asegurados


• Sin ver esta gráfica podemos decir que los

promedios parciales convergerán al costo

promedio por póliza, que es

$100,000(0.05)=$5,000.

• Ahora bien, hemos determinado que los

promedios parciales se aproximan a la media

teórica. Sin embargo, el asegurador no paga

"indemnizaciones promedio" sino

indemnizaciones totales. Veamos entonces

cómo se comportan las indemnizaciones totales.


• El promedio de los costos totales con 2000 pólizas es $100,000(0.05)(2000)=$10,000,000.

• ¿Será cierto que los costos totales se aproximan a este valor?

• El proceso de las sumas parciales de las indemnizaciones, claramente forma una gráfica escalonada.

• Más aún, podemos ver que este valor NO se aproxima a $10,000,000 como los promedios se acercaban a $5,000.

Ley de grandes números Costos agregados

0

2000000

4000000

6000000

8000000

10000000

12000000

140000001

50

99

14

8

19

7

24

6

29

5

34

4

39

3

44

2

49

1

54

0

58

9

63

8

68

7

73

6

78

5

83

4

88

3

93

2

98

1

10

30

10

79

11

28

11

77

12

26

12

75

13

24

13

73

14

22

14

71

15

20

15

69

16

18

16

67

17

16

17

65

18

14

18

63

19

12

19

61

Núm. asegurados


• Ahora es mucho más claro ver lo que realmente sucede: los costos totales de un grupo de 2000 asegurados no se aproximan a los 10 millones, pero si este procedimiento se repite muchas veces, el promedio (sobre las repeticiones) de los costos totales sí se aproxima a los 10 millones. Sin embargo, la variabilidad de los resultados AUMENTA con el número de asegurados.

• ¿Qué implicaciones tiene esto para un sistema de seguros? ¿Para un plan de negocios?

Teorema Central del Límite

• Sin entrar en detalles técnicos, el TCL nos

dice que la suma de un número grande de

observaciones provenientes de un

fenómeno aleatorio tiene una distribución

aproximadamente normal.

• Requisitos generales:

– “baja” variabilidad

– “baja” asociación entre las observaciones.


• Parámetros bajo independencia

• De lo contrario, necesitamos obtener la

distribución de la suma. En el caso de variables

independientes, se realiza mediante el proceso

de convolución.

n

i

in

n

i

in

XVarXXVar

XEXXE

1

1

2

1

1

...

...


Convoluciones - Modelo Exponencial (1)

0

0.2

0.4

0.6

0.8

1

1.2

0

1.4

2.8

4.2

5.6 7

8.4

9.8

11

.2

12

.6 14

15

.4

16

.8

18

.2

19

.6 21

22

.4

23

.8

25

.2

26

.6 28

29

.4

Monto


Densidad Gamma (100,1) vs Normal

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

10

0

10

2

10

3

10

5

10

6

10

8

10

9

11

0

11

2

11

3

11

5

11

6

11

8

11

9

12

1

12

2

12

4

12

5

12

7

12

8

Monto

Gamma

Normal

Normal

Gamma


• En el caso de las pólizas de vida:

05.0105.0100000

05.0100000

2

n

n


12000000100000008000000600000040000002000000

40

30

20

10

0

Pe

rce

nt

n=500

n=1000

n=2000

1000 simulaciones del costo total de n pólizas

Economías de escala

• Bajo la aproximación normal, notamos que

los costos totales incrementan los

parámetros de manera diferente.

• El costo promedio se incrementa de

manera lineal.

• La desviación estándar se incrementa en

términos de raíz de n.


• Si la prima total fuera calculada bajo el escenario n=1000 como el percentil 95 de la distribución del costo total tendríamos

• Es decir la prima individual es el costo promedio de c/póliza más un 23%.

2267.1

637,133,6$645.1

202,689$

000,000,5$

P

P


• La misma prima alcanza a cubrir el costo total con una mayor probabilidad conforme el número de pólizas aumenta.

• Subaditividad!

n 500 1000 2000

mu $2,500,000 $5,000,000 $10,000,000

sigma $487,340 $689,202 $974,679

prima $3,066,819 $6,133,637 $12,267,274

Pr insolv. 0.12 0.05 0.01

Modelos y estimación


• Un modelo es una representación simplificada de algún aspecto del mundo real.

• Un buen modelo debe tener – Corrección: debe estar basado en teoría y en las

reglas matemáticas.

– Concordancia: ser acorde con las mediciones que observamos en la realidad.

– Aplicabilidad: servir para los propósitos que nos hemos planteado.


• Es falso suponer que los modelos

(probabilísticos) actuariales solamente se

basan en datos históricos, ignorando las

variables que interactúan con el fenómeno

de interés.

• Los modelos deben incluir toda la

información relevante disponible.


• Una distinción fundamental existe entre el

modelo del riesgo para el asegurador y el

modelo que representa el flujo de información

disponible.

• Ejemplo: la aplicación de deducibles,

coaseguros, topes a la indemnización, periodos

de espera,… causa que la información confiable

que tiene el asegurador sea únicamente la de

las indemnizaciones y no la de las pérdidas

sufridas por el asegurado.


• Siniestros (X) vs Indemnizaciones (Y)

• r=inflación, d=deducible, u=límite,

a=1-coaseguro:

ruXdu

ruXrddXr

rdX

Y

1/,

1/1/,1

1/,0

a

a


duy

duydF

uF

duydF

dyf

yf

duy

duydF

dFdyFy

yF

X

X

X

X

Y

X

XXY

,0

,1

1

0,1

,1

0,1

0,0


• Cuando efectivamente utilizamos sólo la información histórica para construir una distribución de probabilidades, sin suponer una familia paramétrica, estamos utilizando un método empírico.

• Los métodos empíricos son útiles de dos maneras:

1. Cuando monitoreamos variables sin referirnos explícitamente a un modelo.

2. Cuando los datos son suficientes para evitar un proceso de inferencia paramétrica.


n

xxxF

j

n

de #

• La distribución empírica asociada a una

muestra aleatoria es

• Y también define

n

xxxf

j

n

de #


• Estas funciones contienen toda la información de la muestra sin hacer ningún supuesto sobre la población, pero sí suponen una muestra aleatoria.

• Cualquier cantidad de interés de la población se estima como la misma cantidad sobre la distribución empírica.

• Este enfoque no impide la construcción de intervalos de confianza, pruebas de hipótesis y otros instrumentos de inferencia.

Modelos y estimación paramétrica

• Los métodos paramétricos consisten en utilizar toda la información disponible para estimar los parámetros de cierta distribución.

• En ese sentido son más eficientes que los métodos empíricos. Además la estructura permite herramientas de análisis de mayor alcance.

• Dependen fundamentalmente de que la distribución elegida sea la correcta.

• En ocasiones son la única opción, debido a la forma en que se presenta la información.


• Un criterio fundamental para ajustar modelos paramétricos es la parsimonia, pues nunca debemos utilizar un modelo complejo si uno más simple logra explicar los datos observados y resolver nuestro problema.

• Esto implica proceder de manera ordenada, de menor a mayor complejidad.


• Para realizar un proceso de selección de

modelos y estimación es necesario recorrer el

“árbol genealógico” de cada familia de

distribuciones.

• Este árbol se construye al aplicar operaciones

simples a distribuciones base.

• Esto constituye un procedimiento objetivo con

el cual dos actuarios podrán coincidir en el

mejor modelo para los mismos datos.





• Para especificar el miembro de la familia paramétrica que mejor representa los datos necesitamos elegir el método de estimación paramétrica.

• Estos métodos son de dos tipos: – Empate de características de los datos

– Métodos de optimización

• Cada método tiene razones prácticas de uso. Sin embargo, el único que tiene un respaldo teórico objetivo es el de maximización de la función de verosimilitud.


• Recordemos que la función de verosimilitud

mide la concordancia de los datos con algún

miembro de la familia paramétrica elegida.

• Es una función del vector de parámetros de esa

familia, en tanto los valores de la muestra se

consideran constantes.

• La combinación de parámetros que maximiza

esta función nos indica el miembro de la familia

paramétrica que mejor representa los datos.

Ejemplo lognormal

• Si tenemos n observaciones

independientes tomadas con absoluta

precisión,

• Y suponemos que la población que

observamos es lognormal…

Ejemplo lognormal

n

j

j

n

j

j

n

j

j

n

j

j

n

j

jn

n

j

j

jn

j j

xn

xn

xnl

xl

xnxL

x

xL

1

2

1

13

2

12

12

2

2

1

2

2

1

ˆln1

ˆ;ln1

ˆ

ln/

ln/

2

ln2lnlnln,ln

2

lnexp

2

1,

Ejemplo lognormal

Ejemplo lognormal

• Considera los montos procedentes de 100 eventos de GMM.

• Suponemos que estos montos se observan con total precisión, no hay deducibles y que los eventos que originan las secuencias de pagos son independientes.

• La función de verosimilitud es justamente la que ya tenemos.

Ejemplo lognormal

1086420

40

30

20

10

0

C1

Pe

rce

nt

Histograma de 100 observaciones de GMM

74.1

13.1ˆ

08.0ˆ

media

Ejemplo lognormal

• Considera ahora que aplicara un deducible de 0.2.

• Esto implicaría que obtenemos información parcial de los gastos médicos.

• En el caso de nuestro ejemplo, cerca del 10% de los datos simplemente desaparecen.

• Nota que el modelo (lognormal) no cambia, sino el flujo de información.

Ejemplo lognormal

• Ahora la función de verosimilitud toma la

forma:

• Ya ahora debemos maximizar esta función de

forma numérica.

n

j X

jX

dF

xfL

1 1,

Ejemplo lognormal

764.1

19.1ˆ

14.0ˆ

media

1086420

40

30

20

10

0

C2

Pe

rce

nt

Histograma de las indemnizaciones pagadas por el asegurador

Buenos hábitos

Buenos hábitos

• La salud de un sistema de seguridad

financiera requiere una conducta

profesional de todos los involucrados.

• La naturaleza de las responsabilidades

actuariales nos llevan a discutir

brevemente algunos aspectos relevantes

en nuestro campo de acción.

Manejo de datos y estadísticas

• La información (de la operación, clientes,

siniestros, litigios, inversiones, etc) es vital

para un asegurador.

• Los actuarios tenemos una

responsabilidad doble:

– Crear una cultura de recopilación de

información confiable, constante y

permanente.

– Utilizarla!

Manejo de datos y estadísticas

• Existe un terrible hábito de considerar a la

información como un trámite a cumplir

(entrega de estadísticas, reportes

mensuales, etc.) y no una herramienta

para el éxito profesional.

• También tenemos el vicio de generar

reportes ante una pregunta simple (¿cómo

vamos? ¿qué recomiendas?).

Modelación

• “Un actuario es una persona que mide las

dimensiones de un cuarto con pasos y

utiliza un micrómetro para la parte

restante”.

• ¿Cuántos modelos actuariales, que

involucran cálculos con gran detalle,

descansan en supuestos vagos y

estimados poco confiables?

Modelación

• La precisión de algún valor producido por

un modelo depende de:

– La calidad de la información

– Los supuestos del modelo

– La adecuación del modelo al problema

– La complejidad del modelo

Modelación

• Los procesos de estimación pueden contener elementos subjetivos, sin embargo debemos tratar de seguir procedimientos objetivos, reproducibles por otros actuarios.

• Siempre debemos revisar si los pronósticos generados con un modelo fueron correctos y realizar los ajustes correspondientes.

Modelación

• Con el desarrollo del cómputo y bases de datos, ha

surgido la tendencia a crear modelos muy complejos y

costosos (infraestructura + horas/actuario) pero que

producen los mismos resultados de los modelos

relativamente más sencillos.

• Sin una medida del margen de error no podemos

evaluar la ganancia en la calidad del pronóstico.

• Tal vez la ganancia es en explicabilidad. En ese caso

debemos evitar usar este modelo para pronóstico.

Modelación

• Es muy peligroso pedir valores extremos a un

modelo basado en supuestos de difícil

confirmación y con datos limitados.

• Ejemplos:

– La estimación de percentiles altos de una distribución

de pérdidas.

– El pronóstico a horizontes muy lejanos.

Comunicación

• Sin una comunicación clara, oportuna y

acorde con la relevancia de los resultados,

ningún análisis cumplirá su función

cabalmente.

• Los actuarios tenemos la responsabilidad

de adecuar el nivel y detalle de la

comunicación para nuestros

interlocutores.

Comunicación

• Debemos fomentar el hábito de proporcionar

cualquier valor estimado (empíricamente o

mediante un modelo) indicando el margen de

error involucrado.

• Recordemos que al aplicar un método de

estimación, los valores derivados del modelo

dependen del método. Y las propiedades son

del método, no del número estimado.

Comunicación

• También es necesario combatir la tendencia a

no documentar suficientemente los análisis y

métodos aplicados.

• Una hoja excel no basta.

• La documentación es parte del proceso y debe

asignarse tiempo para ella. Es la única forma en

que podemos ir gradualmente contribuyendo a

nuestras empresas y a la profesión.

Documents

Taller de Probabilidad Parte 1 - … · Distribuciones de probabilidad en la práctica - Parte 1 Dr. Diego Hernández Rangel ITAM Septiembre 2011