8
NOTA DE CLASE: DISTRIBUCIÓN PARETO La Distribución Pareto (tipo I), es una distribución de probabilidad decreciente y convexa, cuya característica fundamental es que está basada en una Ley de Potencia. Ésa característica la va a hacer muy adecuada para estimar valores extremos de cola desconocidos, a partir de la información conocida. Para entenderla mejor, se la compara con la Distribución Exponencial: Densidad y FGM Esperanza y varianza Función de prob. acumulada Prob. acumulada a derecha Ley de rigo r Dist. discreta asociada EXPONENCIAL con β>0 β es parámetro de escala (es una “tasa de cambio” arbitraria). LEY EXPONENCIAL GEOMÉTRICA (Bin.Neg. con h=1) (con n ≥ 0) PARETO debe darse: x>m ; α>0 y m>0 α es un parámetro de forma, actuando en conjunto con m, que es un valor arbitrario. si α 1 , la E(X) es infinita si α 2 , la V(X) es infinita ( para X>x>m ) LEY DE POTENCIA Distribución ZETA (o de Zipf) n>0, en exceso de “m”. Z(α) es la Función Zeta de Riemann, que sirve como regulador de la ley de cierre de probabilidad. - La Ley Exponencial (“principio de los procesos sin memoria”), implica una forma exponencial. - La Ley de Potencia, implica una forma hiperbólica. Un ejemplo gráfico sencillo, usando las funciones discretas asociadas, hace resaltar el funcionamiento de cada tipo: GEOMÉTRICA q=0,75 ; con frecuencias relativizadas. DIST. ZETA m=1 y α=1 (el caso más sencillo); 1

Apunte de clase, sobre la Distribución Pareto

Embed Size (px)

DESCRIPTION

En esta nota de clase, se presentan algunas características de la distribución Pareto, que es útil para modelar colas pesadas de distribuciones, en el ámbito de cotización de coberturas de seguro.

Citation preview

Page 1: Apunte de clase, sobre la Distribución Pareto

NOTA DE CLASE: DISTRIBUCIÓN PARETO

La Distribución Pareto (tipo I), es una distribución de probabilidad decreciente y convexa, cuya característica fundamental es que está basada en una Ley de Potencia. Ésa característica la va a hacer muy adecuada para estimar valores extremos de cola desconocidos, a partir de la información conocida.

Para entenderla mejor, se la compara con la Distribución Exponencial:

Densidad y FGM Esperanza y varianza

Función de prob.

acumulada

Prob. acumulada a

derecha

Ley de

rigorDist. discreta asociada

EX

PON

EN

CIA

L

con β>0

β es parámetro de escala (es una “tasa de cambio” arbitraria).

LEY EX

PON

ENC

IAL

GEOMÉTRICA(Bin.Neg. con h=1)

(con n ≥ 0)

PAR

ET

O

debe darse: x>m ; α>0 y m>0

α es un parámetro de forma, actuando en conjunto conm, que es un valor arbitrario.

si α ≤ 1, la E(X) es infinita

si α ≤ 2, la V(X) es infinita

( para X>x>m )

LEY D

E POTEN

CIA

Distribución ZETA(o de Zipf)

n>0, en exceso de “m”.

Z(α) es la Función Zeta de Riemann, que sirve como regulador de la ley de cierre de probabilidad.

- La Ley Exponencial (“principio de los procesos sin memoria”), implica una forma exponencial.- La Ley de Potencia, implica una forma hiperbólica.

Un ejemplo gráfico sencillo, usando las funciones discretas asociadas, hace resaltar el funcionamiento de cada tipo:

GEOMÉTRICA q=0,75 ; con frecuencias relativizadas.

1 2 3 4 5 6

DIST. ZETA m=1 y α=1 (el caso más sencillo); con frecuencias relativizadas.

1 2 3 4 5 6

1

3/4

9/16 27/64 81/256 >>>

1/2

1/3 1/4 1/5 >>>

1/1 1/1

Page 2: Apunte de clase, sobre la Distribución Pareto

La definición del Principio de los procesos Sin Memoria es: Pr [B // A] = Pr [(B – A)] = Pr[(B-A) // 0]

Y una Ley de Potencia se va a dar siempre que se cumpla, sucesivamente: (para todo par x1≥0 , x2≥0)

Ahora, le vamos a dar un poco más de aplicación a las 2 leyes, y a las 2 distribuciones comparadas:

Caso A) “En una población de infinitos miembros, que distribuye los salarios con una Dist. Exponencial (β=$2.000), se registran las siguientes muestras:

Trabajador SalarioAndrés $ 1.000

Bernardo $ 2.000Carlos $ 3.000Diego $ 4.000

Esteban $ 5.000Federico $ 8.000

Con

…dice Andrés ($1): el 39% de la población total cobra igual o menos que yo.

…dice también Andrés: entre los que cobran más que yo, el 39% está entre Bernardo ($2) y yo.

…dice Bernardo ($2): entre los que cobran más que yo, el 39% está entre Carlos ($3) y yo.

…dice Carlos ($3): entre los que cobran más que yo, el 39% está entre Diego ($4) y yo.

…dice Diego ($4): entre los que cobran más que yo, el 39% está entre Esteban ($5) y yo.

Caso B) “En una población de infinitos miembros, que distribuye los salarios con una Dist. Pareto (α=1; m variable según la necesidad, y una relación arbitraria sucesiva: x=2*m), se registran las siguientes muestras:

Trabajador SalarioAndrés $ 1.000

Bernardo $ 2.000Carlos $ 3.000Diego $ 4.000

Esteban $ 5.000Federico $ 8.000

Con y

…dice Andrés ($1): desconozco cuánta gente cobra menos que yo, porque yo soy mi referencia.

…dice también Andrés: entre los que cobran más que yo, el 50% cobra más que Bernardo ($2).

…dice Bernardo ($2): desconozco cuánta gente cobra menos que yo, porque yo soy mi referencia.

…dice también Bernardo: entre los que cobran más que yo, el 50% cobra más que Diego ($4).

…dice Diego ($4): desconozco cuánta gente cobra menos que yo, porque yo soy mi referencia.

…dice también Diego: entre los que cobran más que yo, el 50% cobra más que Federico ($8).

Se ve que el parámetro “m” de la Pareto (también llamado “x mínimo” o “punto de observación – OP”) es

sólo un punto de referencia determinable. En ese punto de referencia, la probabilidad acumulada de la Pareto es siempre igual a cero (el “desconocimiento”, en el ejemplo de arriba).

Con este funcionamiento, se entiende porqué es que es más importante en la Pareto conocer el valor de

Pr [X>x] (“la probabilidad de cola”, fijando un valor x), que conocer el valor de la probabilidad acumulada a la izquierda. Y también, se suele trabajar la Pareto con un gráfico de probabilidad acumulada (“ojiva”), más que con su histograma de densidad.

OJIVA Gráfico de F(x) y Pr(X>x)

0

0,2

0,4

0,6

0,8

1

0

0,2

0,4

0,6

0,8

1

Prob.complemetaria aderechaProb. Acumulada

2

Page 3: Apunte de clase, sobre la Distribución Pareto

Análisis de Valores Extremos:

¿A qué se dedica el enfoque de “Valores Extremos”?

Esta técnica busca “predecir” (estimar) cuáles podrían ser los máximos valores de siniestros que todavía no acontecieron, con sus teóricos valores de probabilidad, partiendo de un análisis de los máximos registros que ya ocurrieron en la experiencia. Para estos fines, es bastante útil la distribución Pareto, por su ponderación de los valores de cola.

¿Qué quiere decir que la Distribución Pareto tipo I tiene “cola pesada” (o “cola larga”)?

Que una distribución cualquiera tenga colas pesadas o “largas”, quiere decir que le asigna al dominio de los valores extremos un campo de probabilidad mayor en comparación con el que le asignaría una distribución Exponencial. Aquellas distribuciones “pesadas” se llaman “subexponenciales”.

La demostración es bastante intuitiva:

Si, en un plano x//y, se tiene una función “potencial” (con c>1), y una función de tipo exponencial (con a>1), se ve que, avanzando hacia la derecha por el eje x, aunque las dos funciones sean

convexas y crecientes, la “potencial” tiene una evolución de su “velocidad instantánea” que es relativamente menor a la evolución de la “velocidad instantánea” sucesiva de la exponencial. Llega el momento en que la función exponencial alcanza a la “potencial”, en un punto desde el cual la función exponencial va a ser mayor y ya nunca volverá a ser alcanzada.

Si la base del exponente es mayor a 1, ese punto de intersección va a existir, por “profundo” que sea.

Potencial (y=x^c)

Exponencial (y=a^x)

De forma análoga, en un plano de funciones de probabilidad, si la Dist. Exponencial se comporta inversamente a aquella función (cumpliendo la ley exponencial), y la Dist. Pareto lo hace inversamente a aquella otra (cumpliendo una ley de potencia, y con forma de hipérbola), al avanzar hacia la derecha sobre el eje x, habrá un punto de intersección a partir del cual la Pareto superará a la Exponencial, y lo seguirá superando de ahí en más hasta el infinito.

DIST PARETO tipo I

DIST. EXPONENCIAL

3

Page 4: Apunte de clase, sobre la Distribución Pareto

¿La distribución Pareto se usa como aproximación de toda una distribución completa de valores registrados, o sólo de aquellos que se encuentran o encontrarían en la cola?

La Pareto es usada para modelar sólo los valores de cola, considerando ahí tanto a los mayores registros de las estadísticas de experiencias pasadas, como a la previsión de valores incluso superiores que podrían ocurrir.

El eventual caso de aplicar una aproximación Pareto a toda la distribución de valores por modelar (ya fuera: la variable Intensidad, o la variable Siniestros totales acumulados), implicaría adecuarla toda a una ley de potencia, convexa y decreciente; y ésta no necesariamente es una forma típica o esperable de aquellas variables.

Para resolver este aparente problema, es que la distribución completa se aproxima con dos funciones distintas: una primera, desde el comienzo del dominio hasta el valor de “inicio de la cola”, y otra función de aproximación (no necesariamente la Pareto) para los valores extremos.

¿En qué punto (o nivel monetario) se puede decir que “ya empezó la cola” de la distribución de pérdidas?

No hay una regla que especifique dónde empieza “la cola” de la distribución, para después ver si es o no pesada (ni qué monto de siniestro acaso tiene por definición un valor “excepcional”), más allá de poder entenderlo como el teórico valor de intersección de las 2 curvas.

Sumado a ésto, se sabe que es una propiedad de la Pareto (tipo I) el hecho de darle a las grandes pérdidas mayor ponderación de probabilidad que la Exponencial, por lo recién explicado, incluso cuando se quisiera postergar “lo más posible” aquel punto de intersección (haciendo ajustes mediante el “alfa” de la Pareto o el “beta” de la Exponencial).

¿La Pareto es siempre “pesada”?

La Pareto tipo I (con un parámetro de forma “α” y un parámetro arbitrario de referencia “m”) siempre es una distribución de cola pesada (“subexponencial”). Sin embargo, la Dist. Pareto Generalizada (“Pareto tipo II”, o “GPD”) puede tomar formas de cola pesada o cola liviana, según como se ajusten sus 3 parámetros.

¿Cuál es la técnica usual para determinar el punto de inicio de la cola, en base a los datos registrados?

Siguiendo la técnica conocida como “Picos sobre el Umbral” (“POT”), ese valor inicial (el “umbral”) de la cola de la distribución se puede obtener aplicando la Fórmula de Hill, y/o deduciéndolo del Gráfico de Hill, no incluidos en este apunte.

¿Y si a la distribución a modelar no le correspondiera una forma de cola pesada? ¿Cómo me entero, y cómo la trabajo?

El procedimiento usual para trabajar distribuciones con cola indefinida, es la técnica de la distribución de Valores Extremos Generalizada (“GEV”), de características parecidas a la GPD.

El método GEV determina primero si tiene o no cola pesada, y después hace corresponder la distribución empírica con alguna otra ya especificada: si fuera de cola no pesada se asociaría a la Dist.Weibull o la Dist.Gumbel, y se fuera de cola pesada se asociaría a la Dist.Fréchet.

Uso de la Distribución Pareto tipo I:

La Pareto puede ser usada, en el modelado siniestral, para aproximar tanto: una distribución de intensidades, de ocurrencias, de frecuencias, de tasa de prima, y de siniestros totales acumulados; e incluso simultáneamente para frecuencia e intensidad. Y se la puede trabajar con distribuciones condicionadas y no condicionadas.

Tomando como ejemplo el caso de una cobertura de Incendio, vamos a ver cómo se explicaría cada caso:

Dist. de Intensidad: si el fuego se origina en un campo sembrado, y avanza siguiendo su “ley de propagación”, la distribución de probabilidad de la pérdida monetaria ocasionada va a seguir una distribución Pareto, cuando los cultivos quemados tengan todos el mismo valor asegurado. (En definitiva, la distribución de la superficie quemada sería una Pareto; su distribución completa cumpliría la ley de potencia).

4

Page 5: Apunte de clase, sobre la Distribución Pareto

Dist. de Ocurrencias: si el fuego se origina en una ciudad de casas de distinto valor asegurado, y avanza por el territorio siguiendo su “ley de propagación”, entonces toda la distribución de Ocurrencias (casas afectadas por el fuego) va a seguir una Pareto; recién después se verá la distribución particular de Intensidad individual (condicionada).

Dist. de Siniestros Acumulados: cuando una empresa de seguros está amenazada por la ocurrencia posible de un evento catastrófico que afecte varios ramos, la cola del daño total a su cargo (antes de reaseguros, de tenerlos) se estima que sigue la distribución Pareto (con lo valores verificados, y también previendo la proyección de los no verificados –“cola de la cola”- que podrían suceder en un futuro evento catastrófico).

El parámetro Alfa:

Entendiéndolo con una visión discreta (Dist. Zeta), este parámetro determina 2 cosas en simultáneo:

1) Determina la “potencia” con la que se reduce la probabilidad puntual de un valor, con respecto a la probabilidad que tenía el punto de referencia arbitrario, y la relatividad entre ambos.

Ejemplo: x=$15.000 m=$3.000 α=1.2 Pr(X=$3.000) =0,08 …. ¿ Pr(X=$15.000) ?

Si supiera, por mis registros, que la frecuencia puntual absoluta de siniestros con valor $3.000 es un 8% del total de los siniestros ocurridos, si aproximo el campo de probabilidad que resta a su derecha como Pareto (α=1.2), se deduce que:

Pr(X=$15.000) = 0,0116

2) Determina la probabilidad de la cola que excede a un cierto valor “x”, como una proporción de toda la probabilidad no acumulada por el punto de referencia “m”.

Ejemplo: x=$15.000 m=$3.000 α=1.2 Pr(X ≥$3.000) =FQ($3.000)=0,26 …. ¿ Pr (X ≥$15.000) ?

En este caso, no lo estamos trabajando con probabilidades puntuales, sino con la probabilidad de llegar y/o superar aquel valor de referencia [a esta operación también se la llama: “FQ($3.000)”]. Como el 26% de los siniestros ocurridos y registrados en la experiencia superan los $3.000, si aproximo una Pareto(α=1.2) al campo de probabilidad posterior al punto de referencia, se llega a que:

Pr(X ≥$15.000) = = 0.0377

=“FQ($15.000)”

Regla: La cola será más pesada cuanto menor sea el valor de Alfa (y viceversa).

El valor más “amigable” que puede tener el parámetro, es α=1, y es una buena aproximación para asociar a distribuciones de riesgo catastrófico.

Estimación del parámetro: aunque dadas las características, Alfa podría ser estimado por método de

momentos con 2 ecuaciones de esperanza y varianza, la fórmula de estimación por Máxima Verosimilitud es bastante sencilla, por lo que sería mejor usar este método, cuando se tuviera el detalle de los registros:

“n” es la cantidad de valores registrados de siniestros que superan el valor arbitrario de referencia “m”.

Los “xi” son aquellos valores conocidos, que superaron respectivamente el punto de referencia. (A valor completo; no hay que restarles “m”).

5