Teoria Del Riesgo 2014-2

Teorıa del Riesgo

Introduccion

La actividad aseguradora esta difundida en el mundo entero, son de uso corriente los seguros

de automoviles, incendios, robos, vida, etc. Esta actividad responde a la incertidumbre que

sienten los individuos ante ciertas situaciones que pueden provocar distintos danos, tanto

materiales como personales. El miedo a la posibilidad de que ocurran dichos acontecimien-

tos se intenta eliminar mediante la compra de un seguro que compensara al asegurado en

el caso de producirse algun dano. La base de esta actividad radica en la existencia de un

equilibrio entre la prestacion que hara la companıa de seguros y la contraprestacion que ella

recibe del asegurado.

Algunos antecedentes historicos

En sus inicios, el seguro era una forma de solidaridad entre los miembros de una comunidad.

Consistıa en un fondo o bolsa en la que todas las personas depositaban parte de su dinero.

Con el capital que acumulaban entre todos, se pagaban los danos que sufrıan algunos de

ellos. Por ejemplo: Antiguamente existıa en algunos puertos la costumbre de que todos los

armadores de barcos que hacıan una determinada lınea, aportaban a un fondo comun una

cantidad de dinero en funcion del numero de navıos que poseıan. Aquellos armadores cuyos

barcos se hundıan o eran saqueados por piratas, recibıan una compensacion economica proce-

dente del fondo comun para poder adquirir otro barco para continuar su actividad laboral.

La Ciencia Actuarial tal como hoy se concibe comienza en el siglo XVII. Durante este periodo

las necesidades comerciales dieron lugar a operaciones que acarreaban un interes compuesto;

los seguros marıtimos eran algo habitual y el calculo de las rentas vitalicias comenzaba a

aparecer. Este tipo de operaciones requerıa algo mas que el juicio intuitivo y comercial de

los primeros aseguradores. Uno de los pilares de la Ciencia Actuarial fue la Teorıa de Prob-

abilidades, las bases del analisis estadıstico en el seguro fueron establecidas por Pascal en

1654 en colaboracion con el tambien matematico Pierre de Fermat.

Otro de los pilares es el concepto de tablas de vida, basadas en las investigaciones sobre la

mortalidad. Las primeras tablas son debidas a John Graunt (1662). En 1693 Edmund Hal-

1

ley, matematico ingles, publico un famoso documento describiendo la construccion de tablas

de vida completas a partir de la hipotesis de estacionariedad de la poblacion, ası como el

metodo de valoracion de las rentas vitalicias, que es, en esencia, el mismo que se utiliza hoy

en dıa. Las tablas de Halley se utilizaron por la mayorıa de las companıas de seguros inglesas

creadas durante el siglo XVIII.

Es en el presente siglo, la Ciencia Actuarial se enriquece con las aportaciones de las matematicas

de los seguros no vida, la teorıa estadıstico-matematica de la estabilidad y la moderna teorıa

de la decision.

Algunos terminos del seguro

La actividad aseguradora, como cualquier otra que supone una especialidad, tiene su propia

forma de expresarse (jerga). Vamos a ver una serie de terminos de uso frecuente:

Seguro: Entendido como contrato, es el convenio entre dos partes, la companıa o entidad

aseguradora por una parte y el contratante por otra, mediante la cual la primera se compro-

mete a cubrir economicamente la perdida o dano que el asegurado puede sufrir durante la

vigencia del contrato. La obligacion del asegurado es pagar, a la firma del contrato, el precio

del seguro total o parcialmente.

Riesgo: Es la posibilidad de perdida o dano. El hombre desde que nace vive con la constante

amenaza de enfermedad, accidente, muerte, etc. De la misma forma sus propiedades pueden

sufrir incendios, robos, etc.

Siniestro: Es la concrecion del riesgo. Por ejemplo, un incendio que destruye una fabrica, el

robo de mercancıas, muerte en un accidente, etc.

Asegurador : Es la persona jurıdica que suscribe el compromiso de ofrecer la proteccion in-

demnizatoria cuando se produce el siniestro. Un asegurador es una sociedad anonima, una

mutua de seguros, cooperativa, etc. Para que una empresa pueda ejercer legalmente como

aseguradora debe tener una autorizacion que concede la autoridad correspondiente.

Asegurado: Es la persona titular del interes asegurado. Es quien sufre el perjuicio economico

en sus bienes, en caso de que ocurra el siniestro, o la persona cuya vida o integridad fısica se

asegura y, por lo tanto, quien percibira la indemnizacion en caso de que un siniestro afectase

al objeto asegurado (excepto en el caso de seguros de vida, en que recibe la indemnizacion

2

en caso de muerte el beneficiario).

Beneficiario: Cuando se asegura la vida o la integridad fısica de una persona puede desig-

narse a otra persona para que reciba las indemnizaciones, que es el beneficiario.

Poliza: Es el documento en que se plasma el contrato de seguro. Tiene dos caracterısticas

que la hacen especialmente importante:

• Es la prueba de que el contrato existe; y

• Es la normativa que regula las relaciones entre los contratantes.

Consta basicamente de tres partes:

• Condiciones generales: son una serie de clausulas iguales para todos los contratos de la

misma modalidad. Incluyen deberes y derechos, forma de atencion del siniestro, riesgos cu-

biertos, etc.

• Condiciones particulares: son las que individualizan cada contrato de seguro. Incluyen

datos personales del asegurado, caracterısticas del riesgo que se asegura (incendio, acci-

dente, robo...), importe de la prima, etc.

• Condiciones especiales: aparecen en algunas polizas y suponen una adaptacion para deter-

minados casos especiales. Por ejemplo, hay unas condiciones generales para todos los seguros

de robo, pero dadas las caracterısticas que pueden tener el seguro de robo a joyerıas, se crean

para este tipo de establecimientos unas condiciones especiales.

Prima: Es el precio del seguro. Es la cantidad de dinero que el asegurado paga para que,

a cambio, el asegurador pague en caso de siniestro. La prima es por lo general para una

vigencia anual del seguro, aunque excepcionalmente puede pagarse por una sola vez, para la

cobertura de varios anos (prima unica en seguros de vida) y tambien por una vigencia menor

de un ano (prima a corto plazo, como en el caso de un viaje, transporte de mercancıas, etc.)

Clases de primas:

• Prima de riesgo: llamada tambien prima pura, natural, matematica o estadıstica, es la

cantidad necesaria y suficiente que el asegurador debe percibir para cubrir el riesgo. Nace

del concepto de esperanza matematica como precio justo de una eventualidad.

3

• Prima de tarifa: tambien llamada prima comercial, es la prima de riesgo mas los recargos.

Estos recargos son de varios tipos:

-Gastos de administracion: sueldos, alquileres de locales, etc.

-Gastos de adquisicion: formado basicamente por la comision que se le paga al corredor o

intermediario.

-Margen de beneficio: son los recargos asignados a la utilidad razonable del asegurador.

• Prima de facturacion: es la prima de tarifa mas los recargos de ley, como son los impuestos

sobre la prima, los derechos de emision y otros agregados y ordenados por disposiciones

legales, ası como los intereses de financiacion en el caso de que el asegurador otorgue facili-

dades de pago fraccionado de la prima anual.

Clasificacion de los seguros

Los seguros se pueden clasificar en dos grandes grupos: seguros de vida y seguros de no vida.

Un seguro de vida es aquel en el que una entidad aseguradora se compromete mediante el

cobro de una prima unica o periodica a pagar la prestacion convenida en el caso de que se

cumpla la circunstancia prevista en el contrato: que la persona o personas fallezcan o sobre-

vivan a un periodo de tiempo determinado. Existen distintas modalidades de seguros de vida:

• Seguros de vida en caso de muerte.

• Seguros de vida en caso de vida.

• Seguros de vida mixtos.

Los seguros de no vida van dirigidos a cubrir danos materiales que ocasionan perdidas

economicas. Los mas frecuentes son los de automoviles, incendios, robos, etc. En este

caso, las prestaciones o indemnizaciones estan en funcion de la cuantıa del dano.

Objetivos de las Matematicas Actuariales

El objetivo de las Matematicas Actuariales lo constituye el estudio cuantitativo de las op-

eraciones de seguro (y financieras en general) a fin de optimizar las decisiones sobre las mag-

4

nitudes que intervienen en ellas, teniendo en cuanta que las citadas operaciones las realiza

un ente asegurador (o financiero) que desarrolla su actividad en un entorno economico-social.

Forma parte del objetivo de la Matematica Actuarial:

• El calculo de primas, reservas, valores garantizados, etc., en las operaciones de seguros de

vida.

• El analisis cuantitativo de los sistemas actuariales en los seguros colectivos, sociales y

planes de pensiones.

• El estudio de los problemas de tarifacion y reservas tecnicas en los seguros no vida.

• La determinacion de las magnitudes de estabilidad del ente asegurador y el analisis de su

solvencia.

Riesgo

Definicion: Se entiende por riesgo, en la literatura actuarial, no solo al objeto asegurado,

sino tambien, a la posibilidad de producirse, por azar, un acontecimiento que origine una

perdida economica o patrimonial.

Un individuo puede adoptar distintas conductas a la hora de enfrentarse al riesgo, una par-

ticularmente asociada al seguro, es la de prevencion y prevision, que conlleva a actitudes de

ahorro y de aseguramiento (como mecanismo para reducir la incertidumbre del asegurado a

traves del pago de la prima). Este ultimo constituye la forma mas adecuada y tecnicamente

eficaz para cubrir riesgos.

Caracterısticas del riesgo

Las caracterısticas esenciales del riesgo, para ser objeto del seguro, son las siguientes:

• Incierto y aleatorio: debe haber una relativa incertidumbre, pues el conocimiento de su

existencia real harıa desaparecer la aleatoriedad, principio basico del seguro. En algunos

casos, se conoce con certeza que ocurrira, pero se ignora cuando, como en la cobertura de

los seguros de vida.

• Factibilidad : Debe existir posibilidad de que riesgo se consume. Tal posibilidad tiene

5

dos situaciones extremas: Por un lado, la frecuencia y del otro la imposibilidad. La excesiva

ocurrencia del riesgo y su materializacion en siniestro atenta contra la aleatoriedad del suceso

cubierto, ası, una gran frecuencia de riesgos, por ejemplo, en la cobertura automoviles, aparte

de resultar muy costoso para la empresa aseguradora, exigira que las primas de seguros nece-

sariamente se incrementen. Del mismo modo, la imposibilidad de que el riesgo se manifieste

en siniestro, situarıa a la empresa aseguradora en una posicion de presentar una cobertura

absurda que harıa inviable la comercializacion del producto, como ofrecer una cobertura de

danos por nevadas, en un paıs tropical.

• Fortuito: El riesgo debe provenir de un acto o acontecimiento ajeno a la voluntad hu-

mana de producirlo. No obstante, es suceptible de indemnizacion el siniestro producido a

consecuencia de actos realizados por un tercero, ajeno al vınculo contractual que une a la

aseguradora con el asegurado. Aunque en tal caso, la entidad aseguradora se reserva el

derecho de ejercitar las acciones pertinentes contra el responsable del dano (principio de

subrogacion), como tambien es posible indemnizar el siniestro causado intencionadamente

por el asegurado, siempre que los danos se hayan producido por una sutuacion de fuerza

mayor o para evitar otros mas graves.

• Monto economico: La realizacion del riesgo debe producir una necesidad traducible a un

valor economico, que se satisface con la indemnizacion correspondiente.

6

EL PROCESO DE MODELACION DEL RIESGO

Recordemos que un modelo matematico, estadıstico, actuarial, o de cualquier naturaleza, es

una representacion simplificada de algun fenomeno real. En un contexto actuarial especıfico,

proponer un modelo para describir una situacion, se basa en la experiencia y conocimiento

que el Actuario tenga del fenomeno bajo estudio, ası como de la informacion historica que

posea sobre el. El modelo debe proveer un balance entre simplicidad (parsimonia) y con-

formidad (ajuste) con la informacion disponible para elaborarlo.

El proceso de modelado

Sin pretender ser exhaustivos, podemos reconocer ciertos pasos a seguir para modelar una

situacion actuarial. Es importante remarcar que, aunque los pasos se enumeren ordenada-

mente, la dinamica del proceso permite regresar a algunos puntos anteriores, para su mejor

especificacion. Finalmente, hay que recordar que modelar tiene algo de tecnica y mucho de

arte.

PASOS

1.- Uno o mas modelos pueden seleccionarse de acuerdo al conocimiento inicial y experiencia

que posea el analista, ademas de la naturaleza de la informacion disponible.

2.- Ajustar el modelo con la informacion disponible.

3.- Realizar pruebas de diagnostico del modelo, para determinar si su ajuste es adecuado

para los datos utilizados.

4.- Considerar, a partir del paso anterior, la posibilidad de utilizar otros modelos.

5.- Si existen varios modelos que pueden ser adecuados, entonces, es necesario compararlos

con la finalidad de decidir por alguno de ellos.

6.- Finalmente, el modelo seleccionado puede adaptarse para aplicarlo en el futuro. Esto

puede involucrar algun ajuste de los parametros, previendo cambios por alguna caracterıstica

exogena, como inflacion, cambios del mercado asegurado o cualquiera otra.

7

Distribuciones asociadas al monto de una perdida

Cuando se manifiesta un riesgo, la Cıa aseguradora tiene la obligacion de cubrir el monto

de la reclamacion que genera tal evento. Dadas las caracterısticas del riesgo, este monto es

claramente aleatorio, por lo que es suceptible de modelarse a traves de una variable aleatoria,

X. Dado que el monto del siniestro es una cantidad no negativa, los modelos probabilısticos

asociados deben contemplar esta y otras caracterısticas. Concretamente

• La variable asociada al monto de reclamacion es mayor o igual que cero (no negativa)

X : [0,∞)→ [0,∞)

• La distribucion de esta variable es generalmente sesgada a la derecha

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Forma común de la distribución del monto de pérdida

x

y=f(

x)

• La distribucion puede ser de colas pesadas lo que podrıa implicar el uso de distribuciones

para valores extremos en su modelacion.

Entonces, dadas estas caracterısticas de los montos asociados a un riesgo, es necesario iden-

tificar las familias de modelos (densidades y/o distribuciones) mas adecuados para su mod-

8

elacion, recordando que deben ser modelos con soporte en los reales no negativos.

Definicion 1. Una familia de distribuciones parametrica es un conjunto de distribuciones

en donde cada miembro esta determinado por uno o varios valores fijos y finitos, llamados

parametros (de ahı el nombre parametrica).

Principales familias parametricas para modelar el monto

de riesgo

Familia de distribuciones exponencial

La distribucion exponencial es un modelo apropiado para los montos, ya que cumple con los

requicitos para su modelacion; no obstante, esta distribucion tiene colas ligeras por lo que

no resultarıa adecuada si el seguro genera una gran proporcion de reclamaciones con montos

muy grandes. Las caracterısticas de esta v.a. son

• f(x; θ) = θe−θx, θ > 0, x ≥ 0

• E (X) =1

θ; V (X) =

1

θ2; MX(t) =

(θ

θ − t

), que existe si t < θ.

• θ es un parametro de escala.

9

0 1 2 3 4 5

0.1

0.2

0.3

0.4

0.5

Diversas formas de la distribución Exponencial

x

Exp

onen

cial

theta= 0.5theta= 0.3theta= 0.2theta= 0.1

Familia de distribuciones Gamma

La distribucion Gamma es una de las distribuciones mas populares para modelar variables

aleatorias con soporte no negativo. Ya que esta distribucion tiene colas ligeras, puede usarse

para modelar datos en los que no ocurran muchas reclamaciones con valores grandes. Se

dice que X v.a. tiene distribucion Gamma si su funcion de densidad es

f(x;α, θ) =θαxα−1e−θx

Γ(α), x ≥ 0, α ≥ 0, θ ≥ 0

con Γ(·) la funcion Gamma definida como

Γ(z) =

∫ ∞0

e−ttz−1dt

Las caracterısticas de la distribucion Gamma son

• E (X) =α

θ; V (X) =

α

θ2; MX(t) =

(θ

θ − t

)α, t < θ

10

E (Xr) =Γ(α + r)

θrΓ(r)

• α es un parametro de forma y θ es de escala.

• La distribucion exponencial es un caso particular de la Gamma. En concreto, es una

Gamma(1, θ).

0 10 20 30 40 50

0.00

0.05

0.10

0.15

0.20

0.25

Diversas formas de la distribución Gamma

x

Gam

ma

alpha= 10 , beta= 0.5alpha= 20 , beta= 0.5alpha= 30 , beta= 0.5alpha= 40 , beta= 0.5alpha= 50 , beta= 0.5alpha= 60 , beta= 0.5

0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Diversas formas de la distribución Gamma

x

Gam

ma

alpha= 10 , beta= 0.1alpha= 10 , beta= 0.2alpha= 10 , beta= 0.3alpha= 10 , beta= 0.4alpha= 10 , beta= 0.5alpha= 10 , beta= 0.6

Familia de distribuciones Log-Normal

Uno de los modelo mas usados para ajustar datos del monto de reclamacion de un siniestro,

es la distribucion log − normal(µ, σ2). Esta distribucion es asimetrica con cola derecha pe-

sada (mas pesada que la exponencial y Gamma, pero no de las mas pesadas), lo que permite

acumular una mayor densidad de probabilidad en esta cola. Por lo tanto, puede utilizarse

para modelar siniestros que generen grandes montos de reclamacion con una proporcion rel-

ativamente alta.

Esta distribucion guarda una estrecha relacion con la Normal. De hecho, una variable aleato-

ria se distribuye Log-normal, si el logaritmo natural de ella, se distribuye Normal, es decir

11

X ∼ log − normal(µ, σ2), si Ln(X) ∼ N(µ, σ2)

La funcion de densidad de esta variable aleatoria es

f(x;µ, σ2) =1√

2πσ2xe−

12σ2

(ln(x)−µ)2 , x > 0, µ ∈ R, σ2 ∈ R+

Algunas caracterısticas de esta distribucion son

• E (X) = eµ+σ2

2 ; V (X) = e2µ+σ2(eσ

2 − 1)

; E (Xr) = erµ+r2σ2

2 (momentos de orden r=1,2,...)

• Pese a su relacion con la normal, ninguno de los parametros es de localizacion ni de escala.

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Diversas formas de la distribución log−normal

x

log−

norm

al mu= 0 , sigma= 1mu= 0.5 , sigma= 1mu= 0.7 , sigma= 1mu= 1 , sigma= 1mu= 1.5 , sigma= 1mu= 2 , sigma= 1

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

Diversas formas de la distribución log−normal

x

log−

norm

al

m= 0 , sigma= 1m= 0 , sigma= 0.9m= 0 , sigma= 0.8m= 0 , sigma= 0.7m= 0 , sigma= 0.6m= 0 , sigma= 0.5

Familia de distribuciones Weibull

La distribucion Weibull puede considerarse como una generalizacion de la exponencial. En

este caso, se incorpora un parametro de forma, lo que permite mayor flexibilidad sobre la

forma que posea la distribucion de los datos, y se conserva el parametro de escala de la

12

exponencial. En general, es una distribucion con colas mas pesadas que la Gamma y la

log-normal, pero aun no de las mas pesadas, por lo que puede ser un modelo adecuado para

los montos de reclamacion que ocurren con una moderadamente alta probabilidad.

Se dice que X v.a. tiene una distribucion Weibull(α, θ), si tiene una funcion de densidad

dada por

f(x) =α

θ

(xθ

)α−1exp

−(xθ

)α, x > 0, α > 0, θ > 0

con α parametro de forma y θ parametro de escala. Observese que si α = 1 la Weibull se

convierte en una Exponencial(θ).

Sus caracterısticas son

• E (X) = θΓ

(1 +

1

α

); V (X) = θ2

[Γ

(2 +

2

α

)− Γ2

(1 +

1

α

)]; MX(t) = θtΓ

(1 +

t

α

)

0.0 0.5 1.0 1.5 2.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Diversas formas de la distribución Weibull

x

Wei

bull

k= 0.5 , lambda= 1k= 1 , lambda= 1k= 1.5 , lambda= 1k= 3 , lambda= 1k= 5 , lambda= 1k= 7 , lambda= 1

0.0 0.5 1.0 1.5 2.0

02

46

8

Distribución Weibull con diferentes parámetros de escala

x

Wei

bull

k= 2 , lambda= 1k= 2 , lambda= 0.8k= 2 , lambda= 0.6k= 2 , lambda= 0.4k= 2 , lambda= 0.2k= 2 , lambda= 0.1

13

Familia de distribuciones Pareto

La distribucion Pareto es una distribucion con cola derecha aun mas pesada que la Log-

normal y la Weibull, por lo que resultara de gran utilidad para modelar siniestros que generen

reclamaciones muy grandes con altas frecuencias. Esta distribucion surge al considerar que

la probabilidad de que una v.a., X, tome un valor superior a un valor determinado, x, tiene

la forma funcional

P (X > x) =

(θ

x

)α, x ≥ θ, α > 0

entonces, la funcion de distribucion de la Pareto es

F (x) = 1− P (X > x) = 1−(θ

x

)α

con funcion de densidad dada por

f(x;α, θ) = F′(x) =

αθα

xα+1, x ≥ θ, α > 0, θ > 0

Algunas de sus caracterısticas son

• E (X) =αθ

(α− 1); V (X) =

αθ2

(α− 2)(α− 1)2; E (Xr) =

αθr

(α− r), α > r, r = 1, 2, ...

• α es un parametro de forma y θ de escala.

14

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Diversas formas de la distribución Pareto

x

Par

eto

alpha= 1 , theta= 5alpha= 2 , theta= 5alpha= 3 , theta= 5alpha= 4 , theta= 5alpha= 5 , theta= 5alpha= 6 , theta= 5

0 2 4 6 8 10

0.0

0.5

1.0

1.5

2.0

Diversas formas de la distribución Pareto

x

Par

eto

alpha= 3 , theta= 100alpha= 3 , theta= 120alpha= 3 , theta= 140alpha= 3 , theta= 160alpha= 3 , theta= 180alpha= 3 , theta= 200

Familia de distribuciones Pareto de segundo tipo

La distribucion Pareto de segundo tipo es simplemente la distribucion Pareto de primer tipo

trasladada al origen. Concretamente, si X tiene distribucion Pareto de primer tipo, entonces

Y = X − θ tiene distribucion Pareto de segundo tipo. Con funcion de densidad

f(x;α, θ) =αθα

(x+ θ)α+1 , x ≥ 0, α > 0, θ > 0

Caracterısticas de esta distribucion

E (X) =θ

(α− 1); Var (X) =

αθ2

(α− 2) (α− 1)2; E(Xr) =

θrΓ (r + 1) Γ (α− r)Γ (α)

,−1 < r < α

E(Xr) =θrr!

(α− 1) (α− 2) · · · (α− r)si r es entero

con Γ(·) la funcion Gamma, ya definida anteriormente.

15

Familia de distribuciones Pareto de tercer tipo

La distribucion de Pareto de tercer tipo, es una generalizacion de las anteriores, en la que

ademas de la traslacion se produce un cambio en la estructura de varianza. Se define como

distribucion de Pareto de tercer tipo a la distribucion de la v.a. X, cuya funcion de dis-

tribucion es:

F (x) = 1−(

θ

θ + x

)αe−

βθx, x > 0, α > 0, θ > 0, β ≥ 0

con funcion de densidad

f(x) =1

θ

(θ

θ + x

)αe−

βθx

[α

xθ

+ 1+ β

]Ninguna de las caracterısticas de esta distribucion tienen una expresion analıtica cerrada.

Familia de distribuciones Burr

La experiencia en el pago de montos reclamacion de seguros, ha mostrado que la Pareto

es apropiada para modelarlos, particularmente, cuando ocurren reclamaciones de montos

excepcionalmente grandes. No obstante, algunas veces es necesario tener distribuciones para

colas pesadas, que sean mas flexibles que la Pareto, por ejemplo, que consideren una funcion

de densidad no monotona. Tal flexibilidad la proporciona la distribucion Burr que tiene un

parametro de forma, β, adicional. En concreto, si X es una v.a. con distribucion Pareto de

segundo tipo, entonces

X1/β ∼ Burr (θ, α, β)

cuya funcion de densidad esta dada por

f(x) =βαθαxβ−1

(xβ + θ)α+1 x ≥ 0 , θ > 0, α > 0, β > 0

El momento de orden r de esta distribucion es

16

E (xr) =θr/βΓ (α− r/β) Γ (r/β + 1)

Γ (α), que existe si r < αβ

• α y β son parametros de forma y θ de escala.

0 10 20 30 40 50

0.0

0.1

0.2

0.3

0.4

Diversas formas de la distribución Burr

x

Bur

r

alpha= 10 , beta= 5 , theta= 0.1alpha= 20 , beta= 5 , theta= 0.1alpha= 30 , beta= 5 , theta= 0.1alpha= 40 , beta= 5 , theta= 0.1alpha= 50 , beta= 5 , theta= 0.1alpha= 60 , beta= 5 , theta= 0.1

0 10 20 30 40 50

0.00

0.01

0.02

0.03

0.04

Diversas formas de la distribución Burr

x

Bur

r

alpha= 10 , beta= 5 , theta= 0.01alpha= 20 , beta= 5 , theta= 0.01alpha= 30 , beta= 5 , theta= 0.01alpha= 40 , beta= 5 , theta= 0.01alpha= 50 , beta= 5 , theta= 0.01alpha= 60 , beta= 5 , theta= 0.01

Estas son algunas distribuciones de uso comun para modelar los montos que genera la real-

izacion de un riesgo. Por supuesto, no estan contemplados todos los modelos, son solamente

los mas utilizados para este objetivo. Por ejemplo, no hemos introducido distribuciones

como: Loglogıstica, Paralogıstica, Pareto generalizada, Gamma inversa, Weibull inversa,

Beta, Beta generalizada, Exponencial inversa, etc. Ninguno de estos modelos corresponde a

los tıpicos de valores extremos como la Gumbel o la Frechet, por ejemplo. Dada esta lista

(no exhaustiva) de posibles modelos, es claro que la eleccion del mismo para modelar una

situacion particular, no sera tarea facil, en general.

17

Distribuciones para valores extremos

Teorıa de valores extremos

• La Teorıa de Valores Extremos (Extreme value theory) consiste en el empleo de una serie de

tecnicas estadısticas para la identificacion y modelado de observaciones extremas o outliers.

• Su objeto es determinar que tan extrema puede ser la mayor o menor observacion registrada

de un fenomeno aleatorio, es decir, estudia el comportamiento del valor maximo o mınimo

de una variable aleatoria.

• El comportamiento inusual de una variable aleatoria merece una consideracion especial,

ya que puede tener un gran impacto para las decisiones que se desprendan del analisis de la

informacion a la que pertenece.

• Para explicar este tipo de sucesos que ocurren, generalmente, con muy baja frecuencia

pero que tienen una influencia muy significativa sobre todo un modelo, la Teorıa de Valores

Extremos emplea metodos matematicos basados en comportamientos asintoticos, distribu-

ciones, procesos estocasticos y leyes lımite.

• Diferentes investigaciones provenientes de multiples disciplinas cientıficas, han desarrollado

metodos para cuantificar eventos extremos y sus consecuencias de un modo estadısticamente

optimo, dando lugar a unas distribuciones de probabilidad que permiten la modelacion de

los valores maximos o mınimos de una variable aleatoria.

De forma simplificada, nuestro problema es el siguiente:

Dada una muestra independiente X1, X2, ..., Xn de una distribucion desconocida, F, quere-

mos estimar la cola de F.

Los problemas mas importantes son:

• Las observaciones en la cola de la distribucion son escasas.

• Por lo general, queremos estimar valores por encima del valor maximo de la muestra.

18

• Las tecnicas usuales de estimacion de densidades ajustan bien en las zonas donde los datos

tienen mayor densidad, pero pueden ser inadecuadas para estimar las colas.

• Los modelos correspondientes a esta teorıa de valores extremos, tienen aplicaciones en

muchas areas, una de las principales es las ciencias ambientales, donde se estudian valores

extremos, por ejemplo, en: Nivel de una presa, velocidad del viento, nivel de un rıo, concen-

tracion de contaminantes, niveles de precipitacion pluvial, etc.

• No obstante, nosotros nos enfocaremos en aplicarla dentro del marco del seguro. En esta

area, el analisis de la siniestralidad extrema es de gran interes, puesto que constituye un

riesgo que pone en peligro la estabilidad y solvencia de entidades aseguradoras.

• Distribucion del maximo

Definamos

Mn = max X1, ..., Xn

Entonces, la distribucion de este maximo es

Pr (Mn ≤ x) = Pr (X1 ≤ x, ..., Xn ≤ x) =n∏i=1

Pr (Xi ≤ x) = F n(x)

Si conocemos F , conocemos la distribucion del maximo, pero las expresiones analıticas para

F n pueden ser complicadas. Frecuentemente F es desconocida.

Entonces, dada la posible complejidad de encontrar esta distribucion, intentaremos buscar

una distribucion lımite que sirva para aproximar la distribucion de Mn, de la misma manera

como la distribucion normal sirve para aproximar la suma de una gran variedad de variables

aleatorias independientes.

Recordar que el resultado que se tiene con las sumas de variables i.i.d. y el Teorema Central

del Lımite: Por la Ley Fuerte de Grandes Numeros, si µ = E(Xi), entonces

Xn =1

n

n∑i=1

Xi −→ µ

19

y si estandarizamos (realizamos una transformacion lineal), tenemos

Xn − µnσn

−→ N(0, 1)

con µn = µ y σn = σ/√n.

Entonces, hay que buscar un resultado del tipo

Pr

(Mn − bnan

≤ x

)= F n (anX + bn) −→ G(x)

Entonces, nos preguntamos

• ¿Cuales son las distribuciones lımite posibles?

• ¿Cuales son las constantes an y bn? ¿Son unicas?

• ¿Que condiciones debe satisfacer F para que se cumpla un resultado ası?

• Si hay varias G posibles, conociendo F , ¿como sabemos, cual de ellas es el lımite? ¿Es

unico?

• ¿Cuales son las distribuciones lımite posibles?

Gumbel : G(x)=exp(−e−x

)x ∈ R

Frechet : G(x,α) =

0 x < 0

exp (−x−α) x ≥ 0, α > 0

Weibull : G(x,α) =

exp

(− (−x)−α

)x < 0, α > 0

1 x ≥ 0

• Estas tres distribuciones reciben el nombre de distribuciones de valores extremos (DV E).

20

Ejemplo

Supongamos que F es la distribucion exponencial con parametro uno. Es decir

F (x) = 1− e−x =⇒ F n(x) =(1− e−x

)ny

F (x+ log n) =(1− e−x−logn

)n=

(1− 1

ne−x)n−→ exp

(−e−x

)por lo tanto, las constantes de normalizacion an = 1 y bn = log n, conducen a que Mn tenga

como lımite una distribucion Gumbel.

−3 −2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

n=10

x

Den

sida

d

−3 −2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

n=15

x

Den

sida

d

−3 −2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

n=20

x

Den

sida

d

−3 −2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

n=25

x

Den

sida

d

La distribucion Cauchy

Consideremos ahora la distribucion Cauchy, cuya funcion de densidad de probabilidad es

f(x) =1

π (1 + x2), x ∈ R

21

Se define la funcion de Supervivencia de una variable aleatoria, como: S(x) = 1− F (x). Y

observemos que S′(x) = −f(x). Entonces

Limx−→∞

S(x)

(πx)−1=

L′HospitalLim

x−→∞

f(x)

π−1x−2= Lim

x−→∞

πx2

π (1 + x2)= 1

entonces

S(x) = 1− F (x) ∼ (πx)−1

De donde tenemos que, para x > 0

S(nxπ

)= 1− F

(nxπ

)∼ (nx)−1

y por lo tanto

Pr(Mn ≤

nx

π

)=

(1− F

(nxπ

))n=

(1− 1

n

(1

x+ o(1)

))n−→ exp

−x−1

Frechet α = 1

Las familias correspondientes a estas distribuciones del valor extremo.

Si introducimos parametros de localizacion y escala a las distribuciones del valor extremo

anteriores, obtenemos una familia de distribuciones para cada una de ellas. A saber

Gumbel(x;µ, σ) = exp(−e−(x−µ)/σ

)x ∈ R

Frechet(x;α, µ, σ) =

0 x < µ

exp(−(x-µσ

)−α)x ≥ µ, α > 0

Weibull =

exp

(−(− (x-µ)

σ

)α)0 ≤ x < µ, α > 0

1 x ≥ 0

22

Observamos que µ es el extremo izquierdo para la distribucion de Frechet y el extremo

derecho para la distribucion Weibul.

Estos tres tipos de distribuciones se pueden combinar en una sola distribucion (hiper modelo),

que se conoce como: La distribucion generalizada de valores extremos (GVE). Que tiene la

forma

G (x; ξ, µ, σ) = exp

−(

1 + ξ

(x− µσ

))−1/ξ+

con y+ = max y, 0 . Para ξ > 0 se tiene la distribucion Frechet con α = 1/ξ. Para ξ < 0,

la distribucion Weibull con α = −1/ξ, y la distribucion Gumbel se obtiene como el lımite

cuando ξ → 0. Al parametro ξ se le conoce como parametro de forma.

Excesos sobre un umbral

En coberturas de riesgo de un seguro, resultan de particular interes aquellos montos de recla-

macion que exceden cierto umbral. Es claro que el estudio de estos valores que exceden el

umbral, es de vital importancia para la solvencia de la companıa. Por tal razon, puede ser

mas conveniente utilizar modelos con umbrales para estudiar estos valores extremos, que

utilizar una distribucion GVE.

23

0 20 40 60 80 100

9798

9910

010

110

210

310

4

x

y

Umbral

Exceso

Entonces, estamos interesados en la distribucion de

Fu(x) = Pr (X − u < x|X > u) =F (x+ u)− F (u)

1− F (u)

A Fu (·) se le conoce como la distribucion de vida residual, del exceso de vida o del exceso

de perdida, esta ultima definicion es la que tiene sentido para el area aseguradora.

Distribucion Pareto Generalizada

Si la funcion de distribucion del maximo de una variable aleatoria es un elemento de GVE,

entonces, para u suficientemente grande, la distribucion Fu (·), puede aproximarse a traves

de la distribucion Pareto generalizada, cuya funcion de distribucion es

H (x; ξ, β) = 1−(ξx

β

)−1/ξ+

, x > 0

24

con β = σ+ξ (u− µ), σ, ξ, µ los parametros correspondientes al elemento de GVE, u el valor

del umbral.

Propiedad importante de la distribucion Pareto Generalizada

• Para ξ ∈ R , F es un elemento de la familia GVE, si y solo si

limu↑wF

sup0<x<wF−u

∣∣Fu(x)−Hξ,β(u)(x)∣∣ = 0

para alguna funcion positiva β y wF el extremo final de F . Esta propiedad dice que la

funcion Pareto generalizada es una buena aproximacion de los excesos de una distribucion

de la familia GVE, para un umbral, u, grande. Este resultado se puede reformular como:

1− Fu(x) = Pr (X − u > x|X > u) ≈ 1−Hξ,β(u)(x), x > 0

Es necesario que u sea lo suficientemente grande.

• Si X tiene funcion de distribucion Pareto Generalizada con parametros ξ < 1 y β, Entonces,

para u < wF

e(x) = E (X − u|X > u) =β + ξu

1− ξ, β + ξu > 0

Estos dos resultados proporcionan una tecnica grafica para elegir un umbral, u, suficiente-

mente grande para justificar que Fu se aproxime por una Pareto Generalizada, a partir de

la version muestral, en, de esta funcion y su linealidad para una distribucion GVE.

Estrategias de modelacion

Ajuste de Maximos Anuales o Metodo de Bloques

Una forma de analizar datos con valores extemos es realizando las estimaciones de los

parametros de la siguiente manera. Consideramos una coleccion de datos que agrupamos en

bloques disjuntos de datos consecutivos y de igual longitud. Si el parametro es el tiempo

(recordar que esta metodologıa se ha utilizado, sobre todo, en cuestiones ambientales), cada

25

conjunto contiene la informacion correspondiente a un periodo fijo de tiempo, digamos un

ano. En cada caso se escoge el periodo para compensar las variaciones internas. Es decir,

tenemos

X(1) =(X

(1)1 , X

(1)2 , ..., X(1)

s

)X(2) =

(X

(2)1 , X

(2)2 , ..., X(2)

s

)...

X(n) =(X

(n)1 , X

(n)2 , ..., X(n)

s

)

Se asume que cada uno de estos vectores son i.i.d, aunque sus componentes pueden no serlo.

Se elige el intervalo de tiempo s de tal manera que se cumpla este supuesto. Entonces,

haremos estimacion e inferencias sobre la muestra i.i.d. para un modelo Gθ con los datos:

Mi = max(X

(i)1 , X

(i)2 , ..., X(i)

s

), i = 1, 2, ..., n

Mostraremos como ajustar un modelo a datos reales mediante esta estrategia, utilizando la

librerıa extRemes de R.

El metodo de estimacion por bloques no hace el mejor uso de la informacion disponible,

pues de cada bloque solo utilizamos un dato: el valor maximo. Sin embargo, otros valores

con registros altos en el mismo bloque pueden tener informacion util sobre la cola de la dis-

tribucion de la muestra, que deberıamos considerar para el analisis. Si tenemos informacion

sobre la serie completa de datos, una alternativa es dejar de lado el procedimiento de bloques

y estudiar todos los valores altos de la muestra.

El segundo enfoque que utilizaremos para modelar datos extremos sera el que considera

los valores por encima de un umbral. Entonces, la idea es seleccionar un umbral alto y

considerar los valores de la muestra que estan por encima de este umbral, para ajustar un

modelo Pareto Generalizado.

Ejemplificaremos este ajuste a traves de varias librerıas de R.

26

MEDIDAS DE RIESGO

Los modelos probabilısticos (en nuestro caso, las densidades o distribuciones mencionadas

anteriormente) nos proporcionan una descripcion de la exposicion al riesgo, no obstante,

necesitamos describir esta exposicion con algun valor numerico o con unos pocos valores

numericos. Estos valores son funciones del modelo y se conocen como indicadores clave de

riesgo. Entonces, estos indicadores son resumenes numericos sobre el comportamiento de

nuestro riesgo, parecidos a los que utilizamos para describir una variable aleatoria. Estos

indicadores informan a los actuarios y a los administradores de riesgo, sobre el grado en que

la companıa esta sujeta a un particular aspecto del riesgo.

• Una medida de riesgo esta en correspondencia con la perdida asociada a este riesgo

• Una medida de riesgo proporciona un solo numero que intenta cuantificar la exposicion a

este riesgo.

• Esta medida se denota como ρ(x). Es conveniente pensar a ρ(x) como la cantidad de

activos requeridos para protegerse de las consecuencias adversas del riesgo, X.

Coherencia de una medida de riesgo

Wang, Young y Panjer (1997) introducen ciertos axiomas, que representan propiedades de-

seables de una medida de riesgo. Artzner et al. (1997) introduce el concepto de coherencia

y se considera el parteaguas en medicion de riesgo.

Una medida de riesgo coherente, es una medida de riesgo ρ(x) con las cuatro propiedades

siguientes. Para cualesquiera dos variables aleatorias de perdida X y Y :

1.- Subaditividad : ρ(X + Y ) ≤ ρ(X) + ρ(Y )

2.- Monotonıa: Si X ≤ Y para todas las posibles consecuencias, entonces ρ(X) ≤ ρ(Y )

3.- Homogeneidad positiva: Para cualquier constante positiva c, ρ(cX) = cρ(X)

4.- Invarianza a translaciones : Para cualquier constante positiva c, ρ(X + c) = ρ(X) + c

Subaditividad significa que la medida de riesgo (y, por lo tanto, el capital requerido para

27

darle soporte) de dos riesgos combinados, no sera mayor que los riesgos considerados por

separado. Subaditividad refleja el hecho que diversificar el riesgo puede ser benefico para

una empresa.

Valor en Riesgo (VaR)

El V aR se ha vuelto la medida estandar para medir exposicion a riesgo. En terminos gen-

erales, V aR es el capital requerido para asegurar, con alto grado de certeza, que la empresa

no sera tecnicamente insolvente. El grado de certeza se elige de manera arbitraria. En la

practica se pueden elegir valores grandes como 99.95% para toda la empresa, o 95% para una

sola clase de riesgo. Entonces, el V aR mide la perdida que se podrıa sufrir, en condiciones

normales del mercado, en un intervalo de tiempo y con un determinado nivel de probabilidad

o confianza.

Por ejemplo, un inversionista que tiene un portafolios de activos por un valor de 10 millones

de pesos, podrıa establecer que el V aR diario de su portafolios es 250, 000 con un nivel de

confianza de 95%. En otras palabras, solamente uno de cada 20 dıas de operacion del mer-

cado (1/20 = 5%), en condiciones normales, la perdida que ocurrira puede ser mayor o igual

a 250, 000.

Definicion tecnica del VaR

Sea X una v. a. con funcion de distribucion, F (x), que denota perdida. El Valor en

Riesgo (VaR) de X al 100%p nivel de confianza, denotado por V aRp(X) o πp, es el p-

esimo percentil de la distribucion de X.

P(X > πp) = 1− p

Pese a la popularidad de esta medida, conviene aclarar que V aR no es subaditiva, lo que la

convierte en una medida incoherente de riesgo, y no refleja el efecto por la diversificacion de

los riesgos.

Ejemplos

Calculemos el V aR de algunas de las distribuciones de uso comun como modelos de perdida

28

Distribucion Normal(µ, σ2). Aunque esta distribucion puede ser cuestionable como modelo

de perdida, suele considerarse por su gran uso en estadıstica. Para encontrar su V aR, ten-

emos

P [X > V aRp(x)] = 1− p⇒ Pr [X ≤ V aRp(x)] = p⇒

P[X − µσ

≤ V aRp(x)− µσ

]= p⇒

P[z ≤ V aRp(x)− µ

σ

]= p⇒ V aRp(x)− µ

σ= Φ−1(p)⇒ V aRp(x) = µ+ σΦ−1(p)

Exponencial(θ)

Recordar que su funcion de distribucion es 1− e−x/θ. Entonces

P [X ≤ V aRp(x)] = p⇒ 1− e−V aRp(x)/θ = p⇒ V aRp(x) = −θlog(1− p)

Log-normal(µ, σ2) y Pareto(α, θ) se dejan como ejercicio al lector.

TailVaR (TVaR)

Definicion tecnica del TVaR

Sea X v. a. con funcion de distribucion F (X), que denota perdida. El TVaR de X al 100%p

nivel de seguridad, denotado por TV aRp(X), es la perdida esperada dado que esta excede

el p-esimo percentil de la distribucion de X.

TV aRp(X) = E(X|X > πp) =

∫ ∞πp

xf(x)dx

1− F (πp)

Una forma alternativa mas interesante de escribir esta cantidad, es:

TV aRp(X) = E(X|X > πp) =

∫ 1

p

V aRu(X)du

1− p

Esta expresion del TV aR implica que puede verse como un promedio de todos los valores

V aR por encima del valor de seguridad p. Lo que significa que proporciona mucho mas in-

formacion sobre la cola de la distribucion que la que da el V aR. TV aR recibe otros nombres

29

en el campo de los seguros: Conditional Tail Expectation(CTE), Tail Conditional Expecta-

tion (TCE) y Expected Shortfall (ES). Finalmente, podemos decir que el TV aR es el valor

esperado de las perdidas en aquellos casos en que se excede el nivel de seguridad previa-

mente fijado. TV aR refleja con mayor fidelidad los eventos extremos que pueden amenazar

la posicion financiera de la entidad. Otra forma comun de escribir el TV aR es

TV aRp(X) = E(X|X > πp) = πp +

∫ ∞πp

(x− πp)f(x)dx

1− p= V aRp(X) + e(πp)

A e(πp) se le conoce como la funcion media de exceso de perdida. Entonces, TV aR es mayor

que su correspondiente V aR por el promedio de exceso de todas las perdidas que exceden al

V aR.

Contrario al V aR, TV aR es una medida de riesgo coherente, por lo que refleja el efecto de

la diversificacion de riesgos.

Dado un umbral de seguridad o confianza, en datos reales, el TV aR es una medida mas

difıcil de calcular que el V aR, ya que ambas se calculan con los datos (generalmente escasos)

acumulados en la cola de la distribucion (mayor error de estimacion).

Ejemplos

Exponencial(θ)

V aRp(X) = −θlog(1− p), y podemos mostrar que, e(x) =

∫ ∞πp

S(x)dx

S(πp). Con S(·) la funcion

de supervivencia de la variable aleatoria. Utilizando este resultados tenemos

e(x) =

∫ ∞πp

e−x/θdx

1− p=−θe−x/θ|∞πp

1− p=θe−πp/θ

1− p=θ(1− p)(1− p)

= θ

Por lo tanto, TV aRp(X) = V aRp(X) + e(x) = −θlog(1− p) + θ.

Pareto(α, θ)

30

Esta distribucion tiene

V aRp = θ[(1− p)−1/α − 1

]y S(x) =

(θ

θ + x

)α

Calculemos e(x) =

∫ ∞πp

S(x)dx

S(πp)

e(x) =

∫ ∞πp

(θ

θ + x

)αdx

1− p=θα (θ + πp)

1−α

α− 1=θα(θ + πp)

(1

θ+πp

)α(α− 1)(1− p)

si remplazamos πp, por su valor y realizamos las operaciones algebraicas, obtenemos

e(x) =θ + πpα− 1

Por lo que finalmente tenemos

TV aRp(X) = V aRp(X) +θ + πpα− 1

= V aRp(X) +V aRp(X) + θ

α− 1

Casos Normal y Log-normal se dejan como ejercicio al lector.

31

Ajuste de una distribucion Pareto Generalizada a la base de datos de

reclamaciones grandes, de la sociedad de actuarios

Como vimos, nuestra segunda opcion importante en los modelos de teorıa del valor extremo,

es la Pareto Generalizada, que surge a partir del metodo conocido como P.O.T. (Peaks over

threshold method), que consiste en modelar los valores extremos que exceden a un cierto

umbral, u, ya sea que modelemos todos los datos, Xi, i = 1, 2, ..., n, o los valores que exce-

den a este umbral Yi = Xi − u, i = 1, 2, ...n. Al intentar aplicar este metodo surgen algunas

cuestiones que debemos resolver

• La primera consiste en determina o elegir el umbral, u. Esta eleccion esta sujeta a un

problema conocido como el problema de la varianza y el sesgo. Porque, cuanto menor

sea el umbral mayor es el numero de observaciones que utilizaremos para ajustar el

modelo, lo que, generalmente, puede disminuir la varianza de los estimadores, pero

puede incrementarse el sesgo si se utilizan observaciones que no pertenecen a la cola de

la distribucion. Por otro lado, si se reduce el numero de observaciones (con un umbral

mas grande), se reduce el sesgo, porque podemos suponer que todas las observaciones

sı pertenecen a la cola de la distribucion, pero, al utilizar pocos datos en nuestra esti-

macion, incrementamos la varianza de los estimadores y, en consecuencia, de nuestro

modelo.

• La segunda cuestion es determinar que funcion de distribucion ajusta a esos datos

que exceden el umbral fijado en el paso anterior. Por supuesto, se trata de encontrar

una distribucion condicional al hecho de que los valores extremos hayan superado el

umbral, u. Como ya dijimos, esta distribucion es la distribucion Pareto Generaliza.

Este resultado esta garantizado por el teorema de Pickands-Balkema-de Haan (Balkema

y de Haan (1974); Pickands (1975)) que muestra que bajo condiciones de maximos

dominios de atraccion1 la distribucion generalizada de Pareto es la distribucion lımite

1Sea Xn, n ≥ 1 una sucesion de v.a.i.i.d. con funcion de distribucion comun F. Sea,

Mn = max Xi, i = 1, 2, ..., n

Decimos que la funcion de distribucion, F, esta en el dominio de atraccion de la distribucion de valoresextremos H (notacion: F ∈ D(H)) si existen constantes an > 0, bn ∈ R, tales que

Fn (anX + bn) = P (Mn ≤ anX + bn)→ H(x)

32

para los excesos sobre un umbral u cuando este es grande.

Eleccion del umbral

El teorema de Pickands-Balkema-de Haan, enuncia que la distribucion generalizada de Pareto

ajusta aquellos valores que exceden un determinado umbral cuando este umbral, u, es su-

ficientemente grande. La dificultad radica en determinar ese umbral a partir del cual es

posible ajustar la distribucion de Pareto Generalizada.

Uso de la funcion media de exceso

La funcion media de exceso teorica de la distribucion de Pareto Generalizada es:

e(x) = E (X − u|X > u) =β + ξu

1− ξ=

β

1− ξ+

ξ

1− ξ, β + ξu > 0

que es una funcion lineal de u, con pendienteξ

1− ξ, una vez que se ha definido un umbral

adecuadamente grande.

Dada una muestra ordenada de forma descendente: (X1:n, X2:n, ..., Xn:n), la funcion empırica

de exceso medio se estima con la siguiente expresion :

ex(x) =

n∑i=1

(Xi:n − u)+

n∑i=1

1(Xi:n>u)

En el numerador se encuentra la suma de los excesos sobre el umbral, u, y en el denominador

el numero de valores que cumplen la condicion de ser superiores a este umbral, es decir, se

estima a traves de la media aritmetica de los valores que exceden a u.

En la practica, es comun tomar como umbrales los propios datos de la muestra, esto es,

u = Xk+1, y esta expresion reduce a:

33

en (Xk) =

k∑i=1

Xi

k−Xk+1

La grafica de la funcion media de excesos es una grafica de los puntos

(Xk:n, en (Xk:n)) , k = 1, ..., n− 1

Entonces, para encontrar el umbral, u, para el cual es razonable pensar que el ajuste a traves

de la distribucion generalizada de Pareto es adecuado, se debe elegir el umbral, tomando el

valor a partir del cual la grafica toma una forma lineal ascendente, ya que la grafica de ex-

ceso medio para la distribucion Pareto generalizada es lineal y tiende a infinito con pendiente

positiva.

34

Distribuciones discretas

Ademas de modelar el monto de reclamacion, tambien es de interes modelar la frecuencia

con las que estas perdidas ocurren. Como es de suponer, los modelos para caracterizar esta

frecuencia de perdidas, corresponden a distribuciones para variables aleatorias discretas. Es

importante senalar que este tipo de distribuciones tambien pueden utilizarse cuando los mon-

tos de perdida se agrupan en una tabla de frecuencias, situacion muy comun en el quehacer

de las companıas aseguradoras.

Antes de iniciar la presentacion de los modelos para v.a. discretas y sus caracterısticas, es

conveniente recordar una importante funcion asociada a estas variables.

La funcion generadora de probabilidades

Sea N una v.a. discreta, con funcion de probabilidad denotada como pk = P(N = k); k =

0, 1, 2... que representa, en nuestro caso, la probabilidad de que exactamente k reclamaciones

ocurran. La funcion generadora de probabilidades (f.g.p.) para esta v.a. es

PN(z) = E(zN)

=∞∑k=1

pkzk

que recibe este nombre porque

1

k!

dk

dzkPN(0) = Pr (N = k)

La familia de distribuciones Binomial(n,q)

Esta distribucion caracteriza el numero de exitos o fracasos, segun sea el caso, en n ensayos

Bernoulli independientes. Su funcion de densidad de probabilidad es

pk = P (N = k) =

(n

x

)qk (1− q)n−k , x = 0, 1, ..., n, 0 < q < 1

35

Cuyas caracterısticas son

• E (N) = nq; V (N) = nq(1− q); P (N) = (1 + q(z − 1))n ; MN(t) = [(1− q) + qet]n

Distribución Binomial(50,0.2)

x

p(x)

0.00

0.02

0.04

0.06

0.08

0.10

0.12


x

p(x)

0.00

0.02

0.04

0.06

0.08

0.10


x

p(x)

0.00

0.05

0.10

0.15

La familia de distribuciones Geometrica(β)

La distribucion geometrica caracteriza el numero, X, de ensayos Bernoulli necesarios para

obtener un exito; x = 1, 2, 3, ..., o tambien es...

La distribucion de probabilidad del numero Y=X-1 de fallas antes de obtener el primer exito;

y = 0, 1, 2, 3, ....

Entonces, si p =β

1 + βes la probabilidad de un exito, la funcion de densidad de probabilidad

de esta variable aleatoria es

P (N = k) =

(β

1 + β

)k−11

1 + β; k = 1, 2, ... o bien

36

P (N = k) =

(β

1 + β

)k1

1 + β; k = 0, 1, 2, ...

Con caracterısticas

• E (N) = β; V (N) = β(1 + β); P (N) = (1− β(z − 1))−1 ; MN(t) = [1 + β (1− et)]−1

Distribución Geométrica(50,1)

x

p(x)

0.0

0.1

0.2

0.3

0.4

0.5

Distribución Geométrica(50,1/3)

x

p(x)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Distribución Geométrica(50,1/4)

x

p(x)

0.00

0.05

0.10

0.15

0.20

La familia de distribuciones Poisson(λ)

Esta es, probablemente, la mas importante de las distribuciones discretas para modelar la

frecuencia de reclamaciones. La distribucion Poisson puede contemplarse como el caso lımite

de la distribucion Binomial(n, p), donde n es muy grande y la probabilidad de ocurrencia p

es constante y muy pequena. En este caso, N sigue una distribucion Poisson con parametro

λ = np. Decimos que N ∼ Poisson(λ), si N tiene funcion de densidad de probabilidad dada

por

P (N = k) =λke−λ

k!; k = 0, 1, 2, ... λ > 0

37

Con caracterısticas

• E (N) = λ; V (N) = λ; P (N) = eλ(z−1); MN(t) = eλ(et−1)

El hecho de que la Poisson tenga media y varianza igual, proporciona un fuerte evidencia

empırica para determinar si un conjunto particular de frecuencias de reclamaciones sigue

esta distribucion. Bastarıa calcular la media y varianza de los datos y ver si estas cantidades

son similares.

Distribución Poisson(1)

x

p(x)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35


x

p(x)

0.00

0.05

0.10

0.15

0.20


x

p(x)

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Familia de distribuciones Binomial Negativa (β, k)

Una distribucion que puede usarse como alternativa a una Poisson es la Binomial Negativa.

Existen al menos dos razones para considerar esta distribucion en lugar de la Poisson.

• Dado que esta distribucion tiene dos parametros, es mas flexible, en el sentido de que

puede tener formas mas diversas, que la Poisson que unicamente tiene un parametro.

• Dado que su varianza es mas grande que su media, constituye tambien una alternativa

para modelar datos de conteo sobredispersos, que son muy comunes en aplicaciones

38

reales.

Una forma estandar de concebir esta distribucion es en una situacion de muestreo por cuota.

Este esquema de muestreo es tıpico de investigaciones de mercado, en las que se pide a un

individuo entrevistar a un numero no definido de sujetos (n) hasta que una parte de ellos (m:

cuota fijo) haya contestado afirmativamente a alguna pregunta o haya preferido un producto

bajo investigacion para su comercializacion. Por supuesto, asumimos que la probabilidad,

p, de que obtengamos una respuesta afirmativa, es la misma para cualquier sujeto. Este

esquema es similar al que se modelarıa con una Binomial, pero, mientras en la Binomial el

numero de “exitos”, m, es aleatorio y el numero de ensayos, n, es fijo, en este caso sucede

exactamente al reves: el numero de “exitos”, m, es fijo (no aleatorio) y el numero de ensayos

(n: total de entrevistados necesarios para tener m exitos) es aleatorio.

Para deducir la funcion de masa de probabilidad, consideremos el numero de fracasos que

han ocurrido hasta obtener m exitos. Si suponemos que han ocurrido k fracasos antes de

obtener estos m exitos, es claro que n=m+k y que en los primeros m+k-1 ensayos debieron

de haber ocurrido m-1 exitos, ya que en el siguiente ensayo debio ocurrir el ultimo exito que

completa la cuota requerida. Entonces, dado que hemos fijado la condicion de m-1 exitos

en los primeros m+k-1 ensayos, este hecho puede modelarse a traves de una v.a. Binomial

(m+k-1, p), y como requerimos que en el ultimo ensayo, que es independiente de los primeros

m+k-1, ocurra necesariamente un exito, entonces la funcion de densidad de esta v.a. es

P(N = k) =

(m+ k − 1

m− 1

)(β

1 + β

)m−1(1

1 + β

)k∗ β

1 + β, entonces

P(N = k) =

(m+ k − 1

k

)(β

1 + β

)m(1

1 + β

)kk=0,1,2,...

ya que

(m+ k − 1

m− 1

)=

(m+ k − 1

k

)Observese que si k = 1, la Binomial Negativa se convierte en la Geometrica. Al igual que en

nuestra definicion de la densidad geometrica, aquı p =β

1 + β

39

Caracterısticas de esta v.a.

E(N) = kβ; V(N) = kβ(1 + β); PN(t) = [1− β(z − 1)]−k ; MN(t) =

[1

1 + β(1− et)

]kYa que β > 0, entonces la varianza de la binomial negativa es mayor que su media,

razon por la que suele usarse como alternativa a la Poisson cuando esta es sobre dispersa

(V ar > media).

Distribución Binomial negativa(2,1/2)

x

p(x)

0.00

0.05

0.10

0.15

0.20

0.25

Distribución Binomial negativa(2,0.3)

x

p(x)

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Distribución Binomial negativa(2,0.7)

x

p(x)

0.0

0.1

0.2

0.3

0.4

Distribuciones de la clase (a,b,0)

Ahora vamos a definir una clase general de distribuciones discretas, que sera de mucha util-

idad para la modelacion de frecuencias de reclamaciones.

La clase (a,b,0)

Definicion 2 Una distribucion de frecuencias pk es un miembro de la clase (a, b, 0) si exis-

ten constantes a y b tales que

40

pkpk−1

= a+b

k, k = 1, 2, 3, ...

donde a y b son constantes propias de cada distribucion. En la siguiente tabla se muestran

los miembros de esta clase, con cada uno de sus valores de estas constantes, ası como el valor

de la funcion de probabilidad en cero, p0.

Distribuciones de la clase (a,b,0)

Distribucion a b p0

Binomial(n,q) − q

1− q(n+ 1)

q

1− q(1 + q)n

Poisson(λ) 0 λ e−λ

BN(β,k)β

1 + β(k − 1)

β

1 + β(1 + β)k

Geometrica(β)β

1 + β0 (1 + β)−1

En conclusion, La clase(a, b, 0) es una hiper familia de distribuciones discretas, que tiene

como miembros distinguidos a las distribuciones mencionadas.

Esta clase provee una forma de encontrar las probabilidades de las distribuciones discretas, a

traves de esta formula recursiva, y resulta bastante practica al momento de querer ajustarlas

a nuestros datos. Ademas, podemos reescribir la formula de tal manera que quede como una

funcion lineal. Es decir

kpkpk−1

= ak + b, k = 1, 2, 3, ...

Con esta forma lineal es posible identificar, por medio de su pendiente, la distribucion de

probabilidad. Esto es, si la pendiente es igual a cero, entonces se trata de una distribucion

Poisson; si es negativa, entonces sera Binomial y si es positiva es una distribucion Binomial

Negativa.

Concretamente tenemos

41

Binomial(n, p)kpkpk−1

= (n + 1)q

1− q− q

1− qk que es una lınea recta con pendiente

negativa

Poisson(λ)kpkpk−1

= λ+ 0k que es una lınea recta con pendiente cero

BN(β, r)kpkpk−1

= (r − 1)β

1 + β+

β

1 + βk que es una lınea recta con pendiente positiva.

2 4 6 8 10

4.96

4.98

5.00

5.02

5.04

Distribución Poisson

k

kpk

p k−1

42

2 4 6 8 10

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

Distribución Binomial

k

kpk

p k−1

43

2 4 6 8 10

12

34

5Distribución Binomial Negativa

k

kpk

p k−1

Distribuciones de clase (a, b, 1)

Algunas veces las distribuciones de frecuencia anteriores no describen adecuadamente el com-

portamiento de un conjunto de datos real. Por ejemplo, porque la distribucion elegida no

ajusta adecuadamente a la cola de los datos, o porque el miembro elegido de la clase (a, b, 0)

no captura, en alguna parte, la forma de la distribucion de los datos. Un problema adicional

ocurre con la cola izquierda de la distribucion, en particular con la probabilidad en cero.

Para datos de seguros, la probabilidad en cero denota la probabilidad de que no ocurran

reclamaciones en un determinado periodo de tiempo. En situaciones donde la ocurrencia

de perdidas es baja, la probabilidad en cero toma un valor grande. Por lo que hay que

prestar especial atencion sobre el ajuste en este punto. En contraste, existen situaciones en

las que la probabilidad de no sufrir perdidas en un periodo determinado, es practicamente

cero, como sucede, por ejemplo, para un seguro de autos para una gran flota de vehıculos,

o en un seguro de enfermedades. Es facil hacer un ajuste a la probabilidad en cero de los

modelos que componen la clase (a, b, 0), para considerar estas situaciones.

La clase (a, b, 1) es la familia de distribuciones que satisfacen la formula recursiva

44

pkpk−1

= a+b

kk = 2, 3, ... o

kpkpk−1

= ak + b (forma lineal)

La unica diferencia con la anterior es que esta inicia en p1 y no en p0. Identificamos dos

tipos de estas distribuciones

• Truncada en cero (zero-truncated): cuando p0 = 0.

• Modificada en cero (zero-modified): cuando p0 > 0.

Es claro que lo que estamos haciendo es modificar a nuestra voluntad, el valor asignado a las

probabilidades para el valor nulo de la variable aleatoria en cuestion. Estas modificaciones

deben responder al problema particular que estemos modelando.

Una distribucion de la clase (a, b, 1) tiene la misma forma que su correspondiente en la clase

(a, b, 0), en el sentido que sus probabilidades son las mismas salvo una constante de propor-

cionalidad.

Relacion entre estas clases

Sea P (z) =∞∑k=0

pkzk la fgp de un miembro de la clase (a, b, 0) y PM(z) =

∞∑k=0

pMk zk la fgp del

miembro correspondiente de la clase (a, b, 1). Como dijimos, se tiene que

pMk = cpk, k = 1, 2, 3, ...

con pM0 un numero arbitrario. Entonces

PM(z) = pM0 +∞∑k=1

pMk zk

= pM0 + c

∞∑k=1

pkzk

= pM0 + c [P (z)− p0]

ya que PM(1) = P (1) = 1, entonces

45

1 = pM0 + c(1− p0)

de donde obtenemos

c =1− pM01− p0

, o pM0 = 1− c(1− p0)

Si remplazamos este valor en la expresion para PM(z), obtenemos

(1− 1− pM0

1− p0

)+

1− pM01− p0

P (z)

que es un promedio ponderado de las fgps de una distribucion degenerada y la del miembro

correspondiente de la clase (a, b, 0). Ademas tenemos

pMk =1− pM01− p0

pk, k = 1, 2, ...

Si ahora denotamos P T (z) a la fgp de una distribucion truncada en cero, correspondiente

a la fgp de un miembro de la clase (a, b, 0), P (z). Remplazando pM0 = 0 en las expresiones

anteriores, tenemos

P T (z) =P (z)− p0

1− p0,

pTk =pk

1− p0, k = 1, 2, ...,

pMk = (1− pM0 )pTk , k = 1, 2, ... y

PM(z) = pM0 + (1− pM0 )P T (z)

tambien un promedio ponderado entre una distribucion degenerada y el correspondiente

miembro de la clase (a, b, 0), truncada en cero.

46

Ejercicio urgente pa’ aclarar esto

Consideremos una binomial negativa (β = 0.5, r = 2.5). Determinemos los primeros cuatro

valores de sus probabilidades para los casos cero-truncado y cero-modificado, con pM0 = 0.6.

Primero, observemos que BN pertenece a la clase (a, b, 0). En este caso

a =0.5

1.5=

1

3, b =

(2.5− 1) ∗ 0.5

1.5=

1

2, y

p0 = (1 + 0.5)−2.5 = 0.362887

Si no tuvieramos ninguna modificacion, entonces calcularıamos los otros tres valores a traves

de la formula recursiva correspondiente, como

pk = pk−1

(a+

b

k

)= pk−1

(a+ b

1

k

)

Dado que ya calculamos las constantes a y b, y la primer probabilidad, p0, las probabilidades

restantes son

p1 = 0.362887

(1

3+

1

2

1

1

)= 0.302406

p2 = 0.302406

(1

3+

1

2

1

2

)= 0.176404

p3 = 0.176404

(1

3+

1

2

1

3

)= 0.088202

pero estas modificaciones cambiaran las probabilidades del modelo original. En el caso

cero-truncado forzamos el modelo a tomar pT0 = 0. Ya que el modelo original asigna una

probabilidad positiva al valor cero, tendremos que incrementar las probabilidades originales

en este modelo truncado en cero. Entonces, el primer valor de esta distribucion truncada

es pT1 = 0.302406/(1 − 0.362887) = 0.474651. A partir de este valor iniciamos el proceso

recursivo para obtener los dos restantes

pT2 = 0.474651

(1

3+

1

2

1

2

)= 0.276880

47

pT3 = 0.276880

(1

3+

1

2

1

3

)= 0.138440

Por otro lado, en el caso de cero-modificado observamos que se asigna una probabilidad

mayor en cero, pM0 = 0.6, de la que se tiene con el modelo original, por lo tanto, habra que

decrementar las probabilidades originales. Dado este valor inicial, calculamos

pM1 = (1− 0.6)(0.302406)/(1− 0.362887) = 0.189860. De aquı tenemos

pM2 = 0.189860

(1

3+

1

2

1

2

)= 0.110752

pM3 = 0.110752

(1

3+

1

2

1

3

)= 0.055376

48

Variables y Modificaciones de cobertura

En esta seccion vamos a definir conceptos necesarios para el desarrollo de la teorıa proba-

bilistica y estadıstica que abarcan los seguros. Primero, es claro que existen distintos tipos de

acuerdos entre las companıas aseguradoras y el asegurado, bajo los cuales se buscan satisfacer

las necesidades de ambos, a traves de las distintas coberturas que se ofrecen en las polizas

de seguros. Entonces, para desarrollar los modelos que contemplen estas modificaciones de

cobertura, es indispensable definir las nuevas variables que generalmente se observan en los

diversos tipos de cobertura, y por medio de las cuales desarrollaremos la teorıa posterior.

Hasta ahora, hemos supuesto que la cantidad de perdida, X, es tambien la cantidad a pagar

por las reclamaciones. Sin embargo, hay modificaciones a las polizas por las que el asegu-

rador puede ser responsable unicamente de un porcentaje o proporcion de esta perdida, que

constituye propiamente la severidad de la misma. Por ejemplo cuando la poliza tiene:

• Deducibles

• Lımites de poliza

• Coaseguro

Antes de representar estas modificaciones al pago de las perdidas mediante variables aleato-

rias y las funciones que las describen, es conveniente distinguir entre dos asociadas a esta

situacion. Una v.a. relacionada al pago de la perdida, en la que el valor cero es posible, y

ocurre cuando hay una perdida sin pago. La segunda corresponde a la que mide “el pago del

pago”, que queda indefinida si no hay pago.

Definicion Deducible: Cantidad o porcentaje establecido en una poliza cuyo importe debe

superarse para que se pague una reclamacion.

En teminos tecnicos: Las polizas de seguro se venden con un deducible, d, por pago de la

perdida. Cuando la perdida, x, es menor que d, la companıa aseguradora no paga nada.

Cuando la perdida es superior a d, la companıa paga x−d. Entonces, definimos las variables

aleatorias asociadas:

La siguiente variable que denota “el pago del pago”

49

Y P =

no definida, si X ≤ d

X − d, si X > d

.

Esta variable tiene dos caracterısticas importantes, la primera de ellas, es que esta truncada

por la izquierda, ya que que aquellas observaciones por debajo del valor del deducible, d ,

son omitidas y esta trasladada debido a que los valores que toma la v.a. empiezan a partir

de d.

Mientras que la que esta asociada al pago por la perdida es:

Y L = (Y − d)+ =

0, si X ≤ d

X − d, si X > d

Y L es una v.a. mixta con una masa de probabilidad en cero, y posiblemente continua para

valores mayores a este. Notemos que Y P = Y L|Y L > 0 = Y L|X > d. Dadas las definiciones

anteriores, se tiene que:

fY P =fX(y + d)

SX(d), y > 0

SY P =SX(y + d)

SX(d)

FY P =FX(y + d)− FX(d)

1− FX(d)

hY P =fX(y + d)

SX(y + d)= hX(y + d)

fY L = fX(y + d), y > 0

SY L = SX(y + d), y ≥ 0

FY L = FX(y + d), y ≥ 0

Donde S(·) y h(·) son las correspondientes funciones de supervivencia y riesgo, respectiva-

mente. Es importante remarcar que si se cambia el deducible, se modifica la frecuencia con

50

la que se hacen los pagos; sin embargo, la frecuencia de perdidas permanece inalterada.

Ejemplo: Supongamos que nuestra variable individual de perdida se distribuye Pareto con

α = 3 y θ = 2000, y tenemos un deducible de 500. Utilizando las formulas anteriores, tenemos

fY P (y) =3(2000)3(2000 + y + 500)−4

(2000)3(2000 + 500)−3=

3(2500)3

(2500 + y)4

SY P (y) =

(2500

2500 + y

)3

FY P (y) = 1−(

2500

2500 + y

)3

hY P (y) =3

2500 + y

que es una distribucion Pareto(3, 2500). Para nuestra variable de perdida, tenemos:

fY L(y) =

0.488, si y = 0

3(2000)3

(2500 + y)4, si y > 0

SY L(y) =

0.512, si y = 0

(2000)3

(2500 + y)4, si y > 0

FY L(y) =

0.488, si y = 0

1− 3(2000)3

(2500 + y)4, si y > 0

hY L(y) =

no definida, si y = 0

3

2500 + y, si y > 0

51

0 20 40 60 80 100

0.00

0.02

0.04

0.06

0.08

0.10

Pareto(4,30)

x

f.d.p

.

XY^P

0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

Pareto(4,30)

x

f.d.p

.

XY^L

Valores esperados

El k-esimo momento de estas variables se definen como:

E[(X − d)k|X > d

]=

∫ ∞d

(x− d)kf(x)dx

1− F (d)

para Y P , y como:

E[(X − d)k+

]=

∫ ∞d

(x− d)kf(x)dx

para Y L. Definimos min(X, d) = (X ∧ d). Entonces, observese que

X = (X − d)+ + (X ∧ d)

de donde se desprende que, en una poliza con un deducible ordinario, el costo esperado por

perdida es:

52

E [(X − d)+] = E(X)− E(X ∧ d)

y el costo esperado por pago es:

E(X)− E(X ∧ d)

1− F (d)

y, como se calcula E(X ∧ d)?. En general, el k-esimo momento es:

E[(X ∧ d)k

]=

∫ d

−∞xkf(x)dx+ dk [1− F (d)]

Tres resultados que seran de gran utilidad en el desarrollo de varias formulas y de calculos,

son:

E(X) =

∫ ∞0

[1− F (x)] dx =

∫ ∞0

S(x)dx

E [(X ∧ d)] =

∫ d

0

[1− F (x)] dx

E [(X − d)+] =

∫ ∞d

[1− F (x)] dx

Calculemos estas esperanzas en el caso de la Pareto(3, 2000), con deducible de 500.

F (500) = 1− 2000

(2000 + 500)3= 0.488,

E(X ∧ 500) =2000

2

[1−

(2000

2000 + 500

)2]

= 360

Recordemos que la Pareto(α, θ) tiene esperanza θ/(α − 1). Entonces, nuestra variable que

denota esta perdida tiene E(X) = 2000/2 = 1000. Por lo tanto, el costo esperado por perdida

es 1000− 360 = 640 y el costo esperado por pago es 640/(1− 0.488) = 1250.

La tasa de eliminacion de perdidas y el efecto de inflacion en deducibles ordinarios

Una cantidad que puede ser importante para evaluar el impacto de un deducible, es la tasa

de eliminacion de perdida.

53

Definicion: La tasa de eliminacion de perdida es el cociente de decremento en el pago es-

perado con un deducible ordinario, respecto al pago sin este deducible. Sin el deducible, el

pago esperado es E(X). Con el deducible, este pago esperado es E(X) − E(X ∧ d). Por lo

tanto, la tasa de eliminacion de perdida es:

E(X)− [E(X)− E(X ∧ d)]

E(X)=

E(X ∧ d)

E(X)

siempre que E(X) exista.

Siguiendo con nuestro ejemplo de la Pareto(3,2000), con un deducible ordinario de 500. La

tasa de eliminacion de perdida es 360/1000 = 0.36. Entonces, el 36% de la perdida puede

ser eliminada al introducir un deducible ordinario de 500.

El efecto de la inflacion

Es obvio que la inflacion incrementa los costos, pero cuando existe un deducible, el efecto de

la inflacion se magnifica:

• Algunos eventos que formalmente producıan perdidas por debajo del deducible, ahora

requeriran de pago de la perdida, por efecto de la inflacion. Es decir, ahora hay mas recla-

maciones que exceden el deducible.

• El efecto relativo de la inflacion se magnifica, ya que el deducible se sustrae posterior a

la inflacion. El deducible no incrementa con la inflacion, pero los reclamos que exceden el

deducible creceran mas que la tasa de inflacion. Por ejemplo, suponga que un evento produce

una perdida de 600 sin efecto de inflacion, y tiene un deducible de 500, entonces, el pago es

de 100. Si la inflacion es del 10%, la perdida incrementara a 660, y el pago a 160, lo que

equivale a un incremento del 60% sobre el pago sin inflacion, y este costo extra debe ser

absorvido por la aseguradora.

Pago esperado por reclamo, considerando la tasa de inflacion

• Consideremos un deducible, d, y una tasa de inflacion constante, r, a lo largo del periodo.

• El pago esperado por perdida sera

54

E [(1 + r)X]− E [(1 + r)X ∧ d]

que puede reescribirse como

(1 + r)

[E(X)− E

(X ∧ d

1 + r

)]

Veamos esto ultimo

E

((1 + r)X − d)+

= (1 + r)E(

X − d

1 + r

)+

= (1 + r)

E(X)− E

(X ∧ d

1 + r

)

Y el pago esperado considerando esta tasa de inflacion, es:

(1 + r)

[E(X)− E

(X ∧ d

1 + r

)]1− F (d/(1 + r))

Seguimos con nuestro ejemplo. Supongamos una tasa de inflacion r = 10%. Recordemos que

el costo esperado por la perdida es 640 y el pago esperado 1250. Con un 10% de inflacion

tenemos:

E(X ∧ 500

1.1

)= E(X ∧ 454.55) =

2000

2

[1−

(2000

2000 + 454.55

)2]

= 336.08

y el costo esperado por perdida despues del efecto de inflacion es 1.1∗(1000−336.08) = 730.32,

que incrementa un 14.11% ((730.32− 640)/640), el pago sin inflacion que era de 640. Para

calcular el costo por el pago, primero debemos calcular

F (454.55) = 1−(

2000

2000 + 454.55

)3

= 0.459

55

de donde obtenemos que este costo es 730.32/(1 − 0.459) = 1350, que aumenta un 8% con

respecto al de 1250 sin inflacion.

Lımite de poliza

Lo opuesto al deducible es un lımite de poliza. Un lımite de poliza tıpico es un contrato

donde, para las perdidas menores a un umbral, u, la aseguradora paga la perdida total, pero

para aquellas mayores a u, la aseguradora solo paga u.

La v. a. asociada a esta reclamacion es Y = min(X, u), que puede escribirse como:

Y = (X ∧ u) =

X, si X ≤ u

u, si X > u

Con funciones de densidad y distribucion dadas por:

fY (y) =

fX(y), y < u

1− FX(u), y = u

FY (y) =

FX(y), y < u

1, y ≥ u

Observese que los resultados que hemos establecido para un deducible d, pueden adaptarse

directamente cuando se trata de un lımite de poliza, simplemente cambiando d por u.

Ahora desarrollemos nuestro ejemplo con un lımite en la poliza de 3000 y una tasa de in-

flacion del 10%. El costo esperado en este caso es:

E(X ∧ 3000) =2000

2

[1−

(2000

2000 + 3000

)2]

= 840

y la proporcion de reduccion es (1000 − 840)/1000 = 0.16. Despues de aplicar la tasa de

inflacion, el costo esperado es:

56

1.1 ∗ E(X ∧ 3000/1.1) = 1.1 ∗ 2000

2

[1−

(2000

2000 + 3000/1.1

)2]

= 903.11

con una proporcion de reduccion de (1100 − 903.11)/1100 = 0.179. El porcentaje de crec-

imiento entre estos costos es de 7.5% = 1 − (903.11/840), que es menor que la tasa de

inflacion. El efecto es opuesto al del deducible.

Coaseguro

En polizas con coaseguro, la cantidad de reclamo es proporcional a la cantidad de perdida

por un factor de coaseguro. Este factor de coaseguro α, 0 < α < 1, es la proporcion de

pago que le corresponde a la companıa aseguradora, mientras el poseedor de la poliza paga

la fraccion restante. La v.a. para este pago es:

Y = αX

cuya densidad puede expresarse como:

fY (y) =1

αfX

( yα

)y tiene valor esperado E(Y ) = αE(X).

Coaseguro, deducibles y lımites

Por supuesto, pueden aplicarse todas las modificaciones de una poliza que hemos visto: de-

ducible ordinario, lımite de poliza, coaseguro e inflacion para generar una poliza mas general.

En este caso la variable aleatoria asociada es:

Y = α(1 + r)

[(X ∧ u

1 + r

)−(X ∧ d

1 + r

)]que podemos reescribir

Y =

0, X <d

1 + r

α [(1 + r)X − d] ,d

1 + r≤ X <

u

1 + r

α(u− d), X ≥ u

1 + r

57

con un pago esperado por perdida

E(Y L) = α(1 + r)

[E(X ∧ u

1 + r

)− E

(X ∧ d

1 + r

)]

y valor esperado por pago

E(Y P ) =E(Y L)

1− FX(

d1+r

)Observese que podemos calcular todas las expresiones involucradas en esta ultimas formulas,

conociendo el modelo asociado a nuestra v.a. de perdida.

Ejemplo: Una companıa de seguros ofrece dos tipos de polizas: Tipo I y Tipo II. La de Tipo I

no tiene deducible, pero tiene un lımite de 3000. Por el contrario, la de Tipo II no tiene lımite,

pero tiene un deducible d. Las perdidas siguien una distribucion Pareto(α = 3, θ = 2000).

Encontrar d de tal manera que las dos polizas tengan la misma cantidad de perdida esperada.

E(TI) = E(X ∧ 3000) =2000

2

[1−

(2000

2000 + 3000

)2]

= 840

E(TII) = E [(x− d)+] =

∫ ∞d

(2000

x+ 2000

)3

dx =2000

2

[(2000

2000 + d

)2]

ya que E(TI) = E(TII), despejamos d, y tenemos que el deducible debe ser d = 182.18.

“Ostro”: Una companıa de mantenimiento de un hospital, paga cotidianamente el costo total

por uso de la sala de emergencia de sus clientes. Esta empresa ha visto que el costo sigue una

distribucion exponencial con media 1000. La cıa. esta evaluando la posibilidad de imponer

un deducible de 200 a sus clientes, por el uso de esta sala.

• Calcule la tasa de eliminacion de perdida debido al deducible de 200. Interprete esta tasa.

• Suponga que la cıa. decide imponer este deducible de 200 por el uso de la sala, ademas de

un lımite de 5000 y con un factor de coaseguro del 80%. Calcule la cantidad de reclamacion

esperada por el evento de perdida y la cantidad esperada por pago, que debe realizar la

58

empresa.

• Suponga una inflacion uniforme del 8%. Calcule los pagos del inciso anterior aplicando

esta tasa.

Primero, observamos que la parametrizacion de la exponencial que tiene sentido, de acuerdo

a la informacion es:

f(x) =1

1000e−x/1000

que tiene E(X) = 1000. Para nuestro primer punto, tenemos que calcular

E(X ∧ 200)

E(X)=

∫ 200

0

e−x/1000

1000=

1000 ∗ (1− e−0.2)1000

= 18.12%

El 18.12% de la perdida puede ser eliminada imponiendo un deducible de 200. Para nuestro

segundo punto, tenemos: d = 200, u = 5000 y α = 80%, y debemos calcular

E(Y ) = α [E(X ∧ u)− E(X ∧ d)]

Observemos que el segundo termino de la expresion entre corchetes cuadrados, es parte del

desarrollo que realizamos en el inciso anterior, y vale 181.2. Para el primer elemento de este

corchete, tenemos

E(X ∧ u) = E(X ∧ 5000) =

∫ 5000

0

e−x/1000 = 1000 ∗(1− e−5

)= 993.262

de estas dos cantidades tenemos que

E(Y ) = 0.8 ∗ [E(X ∧ 5000)− E(X ∧ 200)] = 0.8 ∗ (993.262− 181.2) = 649.649

que es la cantidad de reclamacion esperada por uso de la sala. Cuyo pago esperado es de:

E(Y )

1− FX(d)=

E(Y )

e−200/1000=

649.649

0.8187= 793.4831

59

El punto final se deja como ejercicio al lector. (El resultado es: 709.5099).

El impacto del deducible en la frecuencia de los reclamos

Un componente importante para analizar el efecto en las modificaciones de las polizas,

concierne al cambio en la distribucion de frecuencias de los pagos cuando se impone un de-

ducible o cuando se modifica. Cuando se impone o se incrementa el deducible, esperarıamos

pocos pagos por periodo, mientras que si se reduce, entonces esperarıamos realizar mas pagos.

Podemos cuantificar este proceso, asumiendo que la imposicion de modificaciones de cober-

tura no afecta el proceso que produce las perdidas individuales que seran pagadas por la

aseguradora. Por ejemplo, en aquellos individuos con una poliza con deducible de 250 por

dano en automovil, puede ser menos posible que se vean involucrados en un accidente que

aquellos con cobertura total.

Para iniciar nuestra discusion, supongamos que Xj representa la j-esima perdida y que no

tiene modificaciones de cobertura en la poliza. Sea NL el numero de perdidas. Ahora, consid-

eremos una modificacion en la cobertura tal que ν es la probabilidad de que las perdidas resul-

ten en pago. Por ejemplo, si hay un deducible d, entonces ν = Pr(X > d). Defina la variable

indicadora Ij como Ij = 1 si la j-esima perdida resulta en pago e Ij = 0 de otra forma. En-

tonces, Ij tiene distribucion Bernoulli con parametro ν y fgp PIj(z) = 1−ν+νz = 1+ν(z−1).

Entonces, NP = I1 + · · ·+INL representa el numero de pagos. Si I1, I2, · · · , son mutuamente

independientes e independientes de NL, entonces NP tiene una distribucion compuesta con

NL como la distribucion primaria y una Bernoulli como distribucion secundaria. Entonces

PNP = PNL

[PIj(z)

]= PNL [1 + ν(z − 1)]

En el caso especial en que la distribucion de NL depende de un parametro θ, tenemos:

PNL(z) = PNL(z; θ) = B [θ(z − 1)]

con B(z) una funcional independiente de θ. Entonces

PNP (z) = B [θ ([1 + ν(z − 1)]− 1)]

= B [νθ(z − 1)]

= PNL(z; νθ)

60

Este resultado implica que NL y NP pertenecen a la misma familia parametrica y solo el

parametro θ debe cambiar.

Ejemplo

Supongamos que la distribucion para la frecuencia de perdidas es BN(β = 3, r = 2), y

para las perdidas es Pareto(α = 3, θ = 1000). Queremos ver el efecto que tiene sobre la

distribucion de frecuencias, imponer un deducible de 250.

Recordemos que la BN tiene fgp dada por PN(z) = [1− β(z − 1)]−r. En este caso β toma

el rol de θ y B(z) = (1− z)−r. Entonces, NP debe tener tambien una distribucion BN con

parametros r∗ = r y β∗ = νβ. Dados los valores particulares de este ejemplo

ν = 1− F (250) =

(1000

1000 + 250

)3

= 0.512,

r∗ = 2 y β∗ = 3(0.512) = 1.536⇒ PNL(z; νθ) = BN(2, 1.536)

0 5 10 15

0.02

0.04

0.06

0.08

0.10

Impacto del deducible en la frecuencia de reclamaciones

x

0 5 10 15

0.00

0.05

0.10

0.15

x

BN(3,2)BN(1.536,2)

61

En general, los parametros de las distribuciones de frecuencia se habran modificado por v

siempre que haya pago, de la siguiente manera:

Distribucion Parametros modificadosPoisson λ∗ = λv

Poisson Modificada en cero p∗0 =pM0 − e−λ + e−vλ − pM0 e−vλ

1− e−λ; λ∗ = λv

Binomial q∗ = vq

Binomial Modificada en cero p∗0 =pM0 − (1− q)m + (1− vq)m − pM0 (1− vq)m

1− (1− q)m; q∗ = vq

Binomial Negativa β∗ = vβ

BinNeg Modificada en cero p∗0 =pM0 − (1 + β)−r + (1 + vβ)−r − pM0 (1 + vβ)−r

1− (1 + β)−r; β∗ = vβ

62

Modelo de perdidas agregadas

En el ejemplo anterior mencionamos (sin gran detalle) que las variables involucradas tenıan

una distribucion compuesta. Ahora introduciremos uno de los modelos mas importantes

en la teorıa del riesgo, que requiere de una distribucion compuesta de las variables que lo

determinan.

Introduccion

Las perdidas que tiene una companıa aseguradora pueden surgir de manera individual o

colectiva, dependiendo del tipo de seguro que se contrate; por este motivo, hay que poner es-

pecial atencion al rol que desempenan las caracterısticas de cada uno de ellos, en las perdidas

que contraiga la empresa. Los modelos que determinan el monto total que devenga una Cıa

por la acumulacion de los riesgos individuales de su portafolio de asegurados, son:

• Modelo de riesgo Individual, y

• Modelo de riesgo Colectivo.

63

Modelo Individual

Supongamos que tenemos un portafolio de n polizas individuales de seguros vigentes por,

digamos, un ano. Definamos como qj la probabilidad de que el j-esimo asegurado efectue exac-

tamente una reclamacion en el periodo; lo que implica que se cumple la igualdad, pj+qj = 1,

que significa que no puede haber mas de una reclamacion por cada asegurado.

Un ejemplo de esta situacion es el que se presenta a traves de contratos para grupos de vida,

en donde se cubre a cierto numero de personas n , y cada una posee diferentes coberturas

de acuerdo a las categorıas que se establecen para su grupo. Esta situacion produce que las

personas tengan distintas probabilidades de perdidas, sujetas a sus caracterısticas personales

o cualquier otra condicion que exista y se determine en el contrato.

Para fijar ideas, supongamos un portafolio con n polizas, una poliza por individuo y con

vigencia a lo largo de un periodo de tiempo establecido. Entonces qj es la probabilidad

de que el j-esimo asegurado efectue exactamente una reclamacion durante este periodo, y

(pj = 1 − qj) que no haga ninguna reclamacion. Esta variable aleatoria es evidentemente

Bernoulli que asigna valores de 1 y 0 a estos eventos, respectivamente, denotemosla como

Rj. Ahora bien, una vez que la j-esima poliza efectue una reclamacion, el impacto de la

misma se vera reflejado en el monto que la companıa aseguradora debera asumir. Definimos

entonces la variable aleatoria Bj > 0, (Rj⊥Bj), como el monto de reclamacion de la j-esima

poliza. Por lo tanto, el monto de la j-esima poliza queda definido por:

Xj =

Bj si Rj = 1 y ocurre con probabilidad qj

0 si Rj = 0 y ocurre con probabilidad 1− qj

Entonces, el monto total por reclamaciones o monto agragado que debe asumir la companıa

aseguradora por el concepto de la reclamaciones de sus asegurados, en el modelo individual,

esta dado por la variable aleatoria

S =n∑j=1

Xj =n∑j=1

BjRj

Este modelo se conoce tambien como el modelo de perdidas agregadas.

64

El nombre de modelo individual se debe a que supone conocer las probabilidades de recla-

macion y posible monto de reclamacion de todos y cada uno de los asegurados de manera

individual. Una posible desventaja es que presupone que el numero de asegurados en la

cartera se mantiene constante (no es aleatorio) durante todo el tiempo de vigencia del seguro.

Entonces, nuestro objetivo es conocer las caracterısticas estadısticas de esta variable S, tales

como: funcion de densidad, distribucion, media, varianza, funcion generadora de momentos,

etc.

Supongamos que cada variable aleatoria, Xj, tiene asociada una funcion de distribucion

FXj (x) , entonces la funcion de distibucion de S queda en terminos de convoluciones como:

FS (x) = (FX1 ∗ · · · ∗ FXn) (x)

No obstante el calculo de convoluciones no es, en general, una tarea facil, por lo que requer-

imos de maneras alternativas para estudiar esta variable aleatoria. Denotemos por GBj a la

funcion de distribucion de Bj. Entonces, algunas caracterısticas de esta variable se enuncian

en la siguiente proposicion

Proposicion

1. E (S) =n∑j=1

qjE (Bj)

2. V (S) =[qjV (Bj) + qjpjE2 (Bj)

]

3. FXj(x) =

(1− qj) + qjGBj(x), x ≥ 0

0 , x < 0

4. MXj(t) = (1− qj) + qjMBj(t)

5. MS(t) =n∏j=1

[(1− qj) + qjMBj(t)

]

Dem

65

1.- E (S) =n∑j=1

E (Xj) =n∑j=1

E (BjRj) =︸︷︷︸por independencia

n∑j=1

E (Bj)E (Rj) =n∑j=1

qjE (Bj)

2.- Observemos que

V (BjRj) = E(B2jR

2j

)− E2 (BjRj)

= qjE(B2j

)− q2jE2 (Bj)

= qj[V (Bj) + E2 (Bj)

]− q2jE2 (Bj)

= qjV (Bj) +(qj − q2j

)E2 (Bj)

= qjV (Bj) + pjqjE2 (Bj)

Por lo que

V (S) =n∑j=1

V (BjRj) =︸︷︷︸idependencia

n∑j=1

[qjV (Bj) + pjqjE2 (Bj)

]3.- ∀x ≥ 0,

FXj(x) = P (Xj ≤ x) = P (BjRj ≤ x)

= P (BjRj ≤ x|Rj = 0)P (Rj = 0) + P (BjRj ≤ x|Rj = 1)P (Rj = 1)

= P (0 ≤ x|Rj = 0) pj + P (Bj ≤ x|Rj = 1) qj

= 1 ∗ pj + qjGXj(x)

4.-

MXj(t) = E(etXj

)= E

(etBjRj

)= E

(etBjRj |Rj = 0

)P (Rj = 0) + P

(etBjRj |Rj = 1

)P (Rj = 1)

= pj + qjMBj(t)

5.- MS(t) = E(et∑nj=1Xj

)= E

(et∑nj=1BjRj

)=︸︷︷︸

independencia

n∏j=1

[pj + qjMBj(t)

]

66

Encontrar la distribucion de S, por lo general, es complicada, por tal motivo no se utilizan

las convoluciones como una alternativa para obtenerla. Para lidiar con esta situacion, se

han desarrollado metodos, esencialmente de aproximacion numerica, que proporcionan esta

distribucion de las perdidas agregadas en un modelo individual.

El modelo colectivo de riesgo

Este modelo presenta las perdidas agregadas como una suma aleatoria de variables aleato-

rias, donde N es la variable aleatoria del numero de reclamaciones realizadas y X1, X2, ..., XN

son las variables aleatorias independientes e identicamente distribuidas, que representan los

montos de cada reclamacion. La especificacion formal del modelo es la siguiente

Sea Xj la reclamacion de pago realizada por el j-esimo asegurado, y sea N el numero aleato-

rio de reclamaciones. Al total o (agregado) de reclamaciones:

S = X1 +X2 + · · ·+XN =N∑j=1

Xj, con S = 0 cuando N = 0

se le conoce como modelo agregado de reclamaciones . Otros nombres que recibe en la lit-

eratura actuarial son modelo colectivo de riesgos y el modelo compuesto de frecuencias. Los

supuestos del modelo son:

• Condicional a N = n, las variables aleatorias X1, X2, ..., XN son i.i.d.

• Condicional a N = n, la distribucion comun de X1, X2, ..., XN no depende de n

• La distribucion de N no depende de ninguna manera de los valores de X1, X2, ..., XN .

Tenemos, N : frecuencia de reclamaciones y X: severidad de las reclamaciones, por lo tanto S

tiene una distribucion compuesta. Entonces, la cuestion central es encontrar la distribucion

de S.

Ya que el objetivo es encontrar la distribucion que mejor ajuste a S, lo haremos a partir de la

distribucion que ajustemos para N y de la distribucion de las X′js. Por lo que la frecuencia

y severidad se modelaran de forma separada pues representa muchas ventajas, entre las que

estan las siguientes:

67

• Debido a que el numero esperado de reclamaciones se ve afectado por el numero de polizas

que se vayan asegurando, y se ira actualizando basado en datos anteriores, el hecho de tener

por separado la frecuencia es mas practico para ir modificando nuestros datos.

• El efecto de factores economicos como la inflacion se ven reflejados en las perdidas de

la companıa, por lo que identificar estos factores en los montos agregados se puede volver

complicado, y si analizamos la frecuencia y severidad por separado esto resulta mas sencillo.

• El impacto de deducibles, coaseguros y lımites de polizas, se estudia de manera mas sencilla,

tanto en las distribuciones de severidad, como en las de frecuencia.

• Debido a que la forma de la distribucion de S depende de las distribuciones de X y N , el

conocer cada una de ellas servira para ajustar mejores distribuciones para S. Por ejemplo,

si la cola de la distribucion de X es mas pesada en comparacion con la de N , la forma de

la cola que tendran las perdidas agregadas sera determinada por la severidad y sera mas

insensible a la frecuencia.

Entonces, los pasos a seguir para hallar la distribucion mas adecuada para el modelo prop-

uesto de S son:

1. Desarrollar un modelo de la distribucion para la frecuencia N basada en datos.

2. Desarrollar un modelo para la distribucion comun de las perdidas X′js basandonos en

los datos.

3. Usando estos dos modelos, llevar a cabo los calculos necesarios para encontrar la dis-

tribucion de S.

Funciones de distribucion y densidad de S

La funcion de distribucion de S esta dada por

FS(x) = Pr(S ≤ x) =∞∑n=0

pnPr(S ≤ x|N = n) =∞∑n=0

pnF∗nX (x)

Con FX(x) = Pr(X ≤ x) la funcion de distribucion comun de las Xjs y pn = Pr(N = n).

F ∗nX (x), es la convolucion de las n v.sa.s, y se puede calcular de forma recusiva como

68

F ∗0X (x) =

0 x < 0

1, x ≥ 0

y

F ∗kX (x) =

∫ ∞−∞

F(k−1)X (x− y)dFX(y) para k = 1, 2, ...

Las colas de esta distribucion, que son de interes, se pueden calcular como

1− FS(x) =∞∑n=1

pn [1− F ∗nX (x)]

Su funcion de densidad esta dada por:

fS(x) = Pr(S = x) =∞∑n=0

pnf∗nX (x), x = 0, 1, ...

cuyo calculo recursivo es

f ∗kX (x) =

∫ ∞−∞

f(k−1)X (x− y)fX(y)dy para k = 1, 2, ...

Si X es discreta, con probabilidades en 0, 1, 2, ... las respectivas convoluciones se pueden

calcular sustituyendo la integral por una suma sobre los valores que toma X.

La fgp de S es

PS(z) = E(zS) =∞∑n=0

E(zX1+X2+···+XN |N = n)Pr(N = n)

=∞∑n=0

E

[n∏j=1

zXj

]Pr(N = n)

=∞∑n=0

[PX(z)]n Pr(N = n)

= E[PX(z)N

]= PN [PX(z)]

69

Siguiendo las mismas consideraciones, la f.g.m de S se obtiene, por

MS (t) = E(etS)

= E[E[etS | N

]]= E

[E[et(X1+···+XN ) | N

]]

=∞∑n=0

E[et(X1+···+XN ) | N = n

]P (N = n)

=∞∑n=0

E[et(X1+···+Xn) | N = n

]P (N = n) =

∞∑n=0

E[et(X1+···+Xn)

]P (N = n)

=∞∑n=0

E

[n∏j=1

etXj

]P (N = n) =

∞∑n=0

[n∏j=1

E[etXj

]]P (N = n)

=∞∑n=0

(E[etX])n P (N = n) =

∞∑n=0

(MX (t))n P (N = n) = E[(MX (t))N

]

= E[elog((MX(t))N)

]= E

[eN log((MX(t)))

]= MN (log(MX (t))

Por lo tanto, obtenemos

MS (t) = MN (log(MX (t))

y dejandola en terminos de la f.g.p.

MS (t) = PN (MX (t))

Momentos de S

Ahora desarrollaremos algunos momentos de esta variable aleatoria, que seran de utilidad

posteriormente.

E (S) = E [E [S | N ]] = E

[E

[N∑j=1

Xj|N

]]

70

=∞∑n=0

E [X1 +X2 + · · ·+XN | N = n]P (N = n)

=∞∑n=0

E [X1 +X2 + · · ·+Xn | N = n]P (N = n)

ya que las X′js son v.a.i.i.d. su esperanza es la misma, digamos, E [X], entonces:

∞∑n=0

E [X1 +X2 + · · ·+Xn | N = n]P (N = n) =∞∑n=0

nE [X]P (N = n) = E [X]E [N ]

E (S) = E [X]E [N ]

La varianza de S se puede calcular por medio de la formula de varianza iterada donde

V (S) = E [V (S | N)] + V [E (S | N)] = E [NV (X)] + V [NE (X)]

= E (N)V(X) + V(N)E2 (X)

=⇒ V (S) = E (N)V(X) + V(N)E2 (X)

Y finalmente su tercer momento alrededor de la media, es:

E[(S − E (S))3

]= E (N)E

[(X − E (X))3

]+3V (N)E (X)V (X)+E

[(N − E (N))3

]E (X)3

Hallar explıcitamente la distribucion de S no es trivial, por lo que se utilizan diversas aproxi-

maciones a su distribucion o soluciones numericas; no obstante, existen algunas elecciones de

los modelos para N y X que permiten tener resultados analiticos para ciertas caracterısticas

de esta distribucion.

Algunos modelos compuestos

Modelo Binomial Compuesto

Si la variable de frecuencia de reclamaciones, N se distribuye Binomial (n, p), y los montos

de reclamacion, X, tienen una distribucion con soporte en los reales positivos, entonces, S

tiene una distribucion binomial compuesta. Sus caracterısticas numericas son:

71

E (S) = npE (X)

V ar (S) = np(E (X2)− pE (X)2

)MS (t) = (1− p+ pMX (t))n

Modelo Binomial Negativo Compuesto

Cuando el numero de reclamaciones tiene una distribucion Binomial Negativa entonces el

riesgo S se distribuye Binomial Negativa Compuesta y se tiene:

E (S) = rβE (X)

V ar (S) = rβ(E (X2) + βE (X)2

)MS (t) =

[1

1 + β (1−MX (t))

]rModelo Poisson Compuesto

Bajo los mismos supuestos que en los modelos anteriores, si N se distribuye Poisson(λ),

entonces S tiene una distribucion Poisson compuesta. Con

E (S) = λE (X)

V ar (S) = λE (X2)

MS (t) = eλ(MX(t)−1)

Supongamos que N ∼ Poisson(λ) y que Xj ∼ Bernoulli(q), aplicando lo anterior para la

distribucion de S, tenemos que

MS (t) = eλ(MX(t)−1); donde MN (t) = eλ(et−1) y en particular para

MX1 (t) = (1− q) + qet

por lo que MS (t) = eλ((1−q)+qet−1) = eλ(qe

t−q) = eλq(et−1)

∴ S ∼ Poisson(λq)

Observacion importante: Aunque estos modelos tienen una forma analıtica en estas car-

acterısticas numericas, ninguna de ellas, salvo el ultimo caso, corresponde a la densidad o

distribucion de S. Es decir, el problema de encontrar la distribucion de las perdidas agre-

gadas, persiste.

72

Distribucion de la convolucion de Poisson compuestas

Una caracterıstica muy util para nuestros fines es que la Poisson compuesta es cerrada bajo

convolucion. Especıficamente

Supongase que Sj tiene una distribucion Poisson compuesta con parametros λj y funcion

de distribucion para severidades Fj (x) para j = 1, 2, ..., n. Ademas, que S1, S2, ..., Sn son

independientes. Entonces S = S1 + S2 + · · ·+ Sn tiene una distribucion Poisson compuesta

con parametro λ =n∑j=1

λj y funcion de distribucion de severidad F (x) =n∑j=1

λjλFj (x) .

Dem:

Sea Mj (t) la f.g.m. de Fj (x) para j = 1, 2, ..., n. Entonces Sj tiene f.g.m. dada por:

MSj (t) = E(etSj)

= eλj(Mj(t)−1) y por la independencia de las S′js, S tiene f.g.m.

MS (t) =n∏j=1

MSj (t) =n∏j=1

exp (λj [Mj (t)− 1]) = exp

([n∑j=1

λjMj (t)−n∑j=1

λj

])

= exp

([n∑j=1

λjMj (t)

]− λ

)= exp

(λ

[n∑j=1

λjλMj (t)

]− 1

)

Debido a quen∑j=1

λjλMj (t) es la f.g.m. de F (x) =

n∑j=1

λjλFj (x) , entonces MS (t) tiene la

forma de la f.g.m. de una distribucion Poisson compuesta.

Ejemplo

S1 y S2 son distribuciones Poisson compuestas con parametros λ1 = 3 y λ2 = 2, y funcion

de severidad individual

x f1(x) f2(x)1 0.25 0.102 0.75 0.403 0.00 0.404 0.00 0.10

73

determine la media y varianza de S.

S = S1 + S2 tiene una distribucion Poisson compuesta con media λ = 3 + 2 = 5, y con

funcion de severidad

x Pr(S = s)1 (3/5)*(0.25)+(2/5)*(0.10)=0.192 (3/5)*(0.75)+(2/5)*(0.40)=0.613 0+(2/5)*(0.40)=0.164 0+(2/5)*(0.10)=0.04

de donde obtenemos

E(S) = 0.19 + 2 ∗ 0.61 + 3 ∗ 0.16 + 4 ∗ 0.04 = 2.05 y V ar(S) = E [(S − 2.05)2] = 0.5075

Modificaciones en los modelos agregados

Una vez definidos estos dos modelos para perdidas agregadas, corresponde ahora incluir

las modificaciones que ellos sufren a traves de las modificaciones que sufren las polizas que

los componen. Es decir, debemos encontrar las variables por perdida y por pago para S,

similares a las que hemos definido para las variables individuales, ya que la distribucion

de S tambien se vera afectada una vez que apliquemos modificaciones en la cobertura de

contratos.

Supongamos un panorama simple bajo el cual el portafolio de perdidas se modifique debido

a la aplicacion de un deducible , d. Como la variable aleatoria S depende de N y de las

X′js , entonces se tendremos que considerar dos posibilidades

• Supongamos que NL es la variable aleatoria por perdida que modela la frecuencia de las

perdidas agregadas, mientras que las X′js determinan la severidad de las mismas. En este

escenario a traves de la variable por perdida Y L modificaremos las X′js que representan los

montos, pues recordemos que:

Y L = (X − d)+ =

0 X ≤ d

X − d X > d

74

ası que la severidad de las reclamaciones se vera afectada. En este caso Y Lj representa el

pago por la j-esima perdida, mientras que la frecuencia seguira distribuyendose de la misma

forma puesto que, como su nombre lo indica, estamos considerando las perdidas totales que

sufre la companıa sin importar aquellas que realmente se pagan.

Entonces, el modelo colectivo queda

S = Y L1 + Y L

2 + · · ·+ Y LNL

donde S = 0 si NL = 0

• La segunda opcion es considerar a Y P , la variable de pago, que reflejara los montos pagados

por la companıa aseguradora una vez que han excedido el valor del deducible, d, pero ademas

de ello, en este caso, la variable que modela la frecuencia de las reclamaciones NP tambien se

modificara, y se vera reflejado en el numero de pagos efectuados. Entonces, los parametros

para NP cambiaran conforme a lo que se reviso en las modificaciones de cobertura para

modelos de frecuencia, donde se considera a la constante ν como la probabilidad de pago

por parte de la aseguradora. Entonces el modelo serıa

S = Y P1 + Y P

2 + · · ·+ Y PNP

donde S = 0 si NP = 0 y Y Pj es la variable de pago que representa el monto de la j-esima

perdida tal como se definio Y P anteriormente.

Es importante considerar las modificaciones de los contratos de seguros en los modelos colec-

tivos, debido a que, bajo circunstancias apegadas a la realidad, generalmente esta informacion

es la que se manejara.

Ya sabemos que existe una relacion entre las variables de perdida y de pago: Y P = Y L|Y L >

0. Luego, retomando el concepto de ν como la probabilidad de pago, las funciones de dis-

tribucion de estas variables, guardan la siguiente relacion:

FY L = (1− v) + vFY P (y) ; y ≥ 0

75

porque 1− ν = P[Y L = 0

]= FY L (0) .

Con una relacion equivalente para sus f.g.m.

MY L (t) = (1− ν) + νMY P (t)

ya que

E[etY

L]

= E[etY

L|Y L = 0]P[Y L = 0

]+ E

[etY

L|Y L > 0]P[Y L > 0

]= E

[1|Y L = 0

](1− ν) + E

[etY

L|Y L > 0]ν

= (1− ν) + νMY P (t)

Ademas, para el numero de perdidas NL y el numero de pagos NP se tiene esta relacion con

sus f.g.p.

PNP (z) = PNL (1− v + vz)

donde PNP (z) = E(zN

P)

y PNL (z) = E(zN

L).

Finalmente con los resultados del Modelo Colectivo, las f.g.m. de S en terminos de las

variables por perdida y por pago son:

MS (t) = E(etS)

= PNL (MY L (t))

y

MS (t) = E(etS)

= PNP (MY P (t))

que guardan la siguiente relacion:

PNL [MY L (t)] = PNL [1− v + vMY P (t)] = PNP [MY P (t)]

76

Ejemplo

En una cobertura de seguros, se sabe que el numero de perdidas en el Modelo de Riesgo

Colectivo se distribuyen BinNeg(β = 1.5, r = 12) y que los montos de las perdidas (X′js)

tienen distribucion Pareto(α = 3, θ = 150). Ademas de esta informacion, se determina que

la inflacion sera del 3% y se aplicaran las siguientes modificaciones de cobertura.

Deducible d = 40

Lımite de poliza = 250

Coaseguro = 85%

Determinar la esperanza y la varianza de las perdidas agregadas, considerando que el monto

de las perdidas se ve modificado por la variable aleatoria de perdida y por la variable aleatoria

de perdida en exceso (o variable de pago).

Primero encontremos E (S) y V (S), cuando las X′js se modifican por Y L. Entonces, el

orden en el que consideramos las modificaciones son: primero la inflacion, posteriormente el

deducible, el lımite de poliza y finalmente el coaseguro.

Considerando estas modificaciones para cada Xj, la variable aleatoria de perdida queda:

Y L =

0 X <40

1.03

0.85 [(1.03)X − 40]40

1.03≤ X <

250

1.03

0.85(250− 40) X ≥ 250

1.03

=⇒

E[Y L]

= α (1 + r)

[E(X ∧ u

1 + r

)− E

(X ∧ d

1 + r

)]

= 0.85 (1.03)

[E(X ∧ 250

1.03

)− E

(X ∧ 40

1.03

)]

Para la Pareto(3, 150)

77

E(X ∧ 250

1.03

)=

150

2

[1−

(150

250 + 150

)2]

= 64.058

E(X ∧ 40

1.03

)=

150

2

[1−

(150

250 + 150

)2]

= 27.676

=⇒ E[Y L]

= 0.85(1.03) [64.058− 27.676] = 31.852

Luego para NL sabemos que se distribuye BinNeg(1.5, 12) pero esta variable, que representa

el numero de reclamaciones del modelo colectivo, no se modifica por ser variable de pedida

y no de pago.

=⇒ E(NL)

= rβ = 12 ∗ 1.5 = 18

Por los resultados anteriores

E (S) = E(Y L)E(NL)

= 31.85244 ∗ 18 = 573.3439

Aparte de esta situacion, como el numero de reclamaciones se distribuye Binomial Negativa,

el modelo se reduce a un Modelo Binomial Negativo Compuesto, razon por la cual, como se

mostro en la seccion anterior, la varianza de S es :

V(S) = rβ[E((Y L)2)

+ βE(Y L)2]

.

Entonces, hay que obtener el segundo momento en terminos de Y L, i.e., E[(Y L)2

], que, de

manera general, se calcula como

E[(Y L)2]

= α2(1 + r)2E[(X ∧ u∗)2

]− E

[(X ∧ d∗)2

]− 2d∗E (X ∧ u∗) + 2d∗E (X ∧ d∗)

con u∗ =

u

1 + ry d∗ =

d

1 + r.

Por lo que en nuestro caso este calculo es

E[(Y L)2]

=

(0.85)2 (1.03)2E

[(X ∧ 250

1.03

)2]− E

[(X ∧ 40

1.03

)2]− 2

(40

1.03

)E(X ∧ 250

1.03

)+ 2

(40

1.03

)E(X ∧ 40

1.03

)

78

que observamos es bastante laborioso. Haciendo estos calculos en R, tenemos que

E[(Y L)2]

= 4217.442

Finalmente

V ar(S) = rβ[E((Y L)2)

+ βE(Y L)2]

= 18[4217.442 + 1.5 (31.85244)2

]= 103307.6

Como segundo punto tambien debemos calcular la E (S) y V (S) considerando a las Y P ′j s y

a NP como la frecuencia.

La funcion para Y P , a diferencia de Y L, es solo tomar en cuenta que los valores paraX <40

1.03

no estan definidos, ası que para la E[Y P]

basta dividir E[Y L]

entre SX(

d1+r

)

=⇒ SX

(40

1.03

)= SX (38.83495) =

(150

38.83495 + 150

)3

= 0.501217

De ahı E[Y P]

=E[Y L]

SX(

d1+r

) =31.85244

0.501218= 63.55007

Para NP debemos obtener E[NP], entonces, como es la frecuencia correspondiente al pago

que realiza la aseguradora, se modifica respecto al valor de ν, donde :

ν = P(X >

d

1 + r

)= 1− FX

(40

1.03

)

esto porque recordemos que es la probabilidad de pago una vez que se ha aplicado inflacion

y deducible en el numero de reclamaciones, entonces

ν = SX

(40

1.03

)= 0.501217971983

Por lo tanto, la distribucion es una Binomial Negativa pero con parametros modificados:

r = r∗ = 12 y β∗ = vβ = 0.751826958

79

=⇒ E[NP]

= rβ∗ = 9.021923496.

De esta forma E (S) = E[Y P]E[NP]

= 627.6041864

La V (S) = rβ∗[E[(Y P)2]

+ β∗E(Y P)2]

=⇒E[(Y P)2]

=E[(Y L)2

]

1− FX(

401.03

) =4963.722677

0.501217= 9903.321418

=⇒ V (S) = 9.021923496[9903.321418 + 0.751826958 (69.56434365)2

]= 122170.9259

Bajo el analisis de las variables por pago y por perdida en este modelo de riesgo colectivo,

la E (S) y V (S) son muy similares entre sı.

80

Metodos para encontrar la distribucion de S

Aproximaciones

Una vez que hemos presentado y analizado los modelos de riesgo individual y colectivo, junto

con algunas de sus caracterısticas, observamos que, en general, no obtuvimos resultados que

nos permitieran encontrar la distribucion de S. Una manera de salvar esta dificultad es a

traves de aproximaciones a esta distribucion, que se utilizan tanto para el modelo individual

como para el modelo colectivo. Presentamos a continuacion las siguientes:

• Normal

• Lognormal

• Gamma Trasladada

• Poisson Compuesta

Aproximacion Normal

A traves del Teorema Central del Lımite se puede aproximar la distribucion de S por medio

de una distribucion normal.

Generalmente, este metodo de aproximacion es de mayor utilidad cuando el numero de

reclamaciones N de nuestro riesgo S es muy grande, y por consecuencia, la E [N ] tambien

resulta ser grande.

Proposicion. Para cualquier s > 0

FS (s) = P [S ≤ s] ≈ φ

(s− E (S)√

V (S)

)

Ahora bien, suponiendo que tanto la Severidad como la Frecuencia de los datos son discretas,

entonces la distribucion de las perdidas agregadas sera discreta; por lo cual, si se desea utilizar

este metodo de aproximacion, sera necesario aplicar antes una Correccion de Continuidad.

Es decir, supongase que se quiere conocer P [n ≤ S ≤ m] , para utilizar la aproximacion nor-

mal, lo unico que se hace es extender el intervalo de [n,m] al intervalo[n− 1

2,m+ 1

2

], por lo

cual la probabilidad bajo la correccion de continuidad sera P[n− 1

2≤ S ≤ m+ 1

2

]. Una vez

81

realizada esta correccion, se hace el mismo procedimiento de aproximacion, considerando la

E (S) y V (S) originales del riesgo S.

Ejemplo

Una companıa aseguradora tiene una cartera con polizas de seguro de vida con las carac-

terısticas que se muestran en la tabla. Utilizando el modelo de riesgo individual, realizar

la aproximacion normal de tal manera que podamos encontrar el valor de s bajo el cual

P [S ≤ s] = 0.95, i.e., deseamos encontrar el VaR de la distribucion de S.

i # de polizas Probabilidad de reclamacion Monto de Reclamacion1 1000 0.05 102 2000 0.10 53 500 0.02 20

Primero veamos lo que sucede con E (Bi) y V(Bi) para i = 1, 2, 3. Primeramente, tenemos

que

para i=1, P (B1 = 10) = 1, P (B1 = x) = 0 si x 6= 10

para i=2, P (B2 = 5) = 1, P (B2 = x) = 0 si x 6= 5

para i=3, P (B3 = 20) = 1, P (B3 = x) = 0 si x 6= 20

Entonces

E (B1) = 1 ∗ 10 + 0 ∗ x = 10 y V ar(B1) = 102 ∗ 1− 102 = 0

E (B2) = 5 y V ar(B2) = 0

E (B3) = 20 y V ar(B3) = 0

Entonces E (S1) =1000∑j=1

0.05 ∗ 10 = 500, E (S2) =2000∑j=1

0.10 ∗ 5 = 1000,

E (S3) =500∑j=1

0.02 ∗ 20 = 200

=⇒ E (S) = 500 + 1000 + 200 = 1700

82

Luego V(S1) =1000∑j=1

(0.05 ∗ 0 + 0.05 ∗ 0.95 ∗ 102

)= 4750

V(S2) =2000∑j=1

(0.1 ∗ 0 + 0.1 ∗ 0.9 ∗ 52

)= 4500

V(S3) =500∑j=1

(0.02 ∗ 0 + 0.02 ∗ 0.98 ∗ 202

)= 3920

Entonces

V(S) = 4750 + 4500 + 3920 = 13170

Se quiere P [S ≤ s] = 0.95, entonces P

[S − E (S)√

V (S)≤ s− E (S)√

V (S)

]= 0.95 el cuantil del 95%

para una N (0, 1) es 1.644854

Por lo tanto s =√V (S) ∗ 1.644854 + E (S) =

√13170 ∗ 1.644854 + 1700

= 1888.764

83

0 500 1000 1500 2000 2500 3000

0.00

000.

0005

0.00

100.

0015

0.00

200.

0025

0.00

300.

0035

Aproximación Normal

s

f S(s

)

84

Aproximacion Lognormal

Cuando la E (N) no es lo suficientemente grande, y por lo mismo, la distribucion de S posee

una cola pesada, la distribucion normal deja de ser apropiada para aproximar la distribucion

del riesgo. Es por esta situacion que se sugiere usar la aproximacion Lognormal aunque no

exista la teorıa suficiente para sustentar que dicha aproximacion sea buena.

Proposicion

Para cualquier s > 0

FS (s) = P [S ≤ s] ≈ φ

(ln (s)− µ

σ

)Recordando que para la distribucion Lognormal se tiene la siguiente esperanza y segundo

momento que son indispensables para obtener lo valores de µ y σ2 :

E (S) = eµ+σ2

2 y E (S2) = e2µ+2σ2

Ejemplo

Suponiendo un modelo de riesgo colectivo para las perdidas agregadas de una companıa

aseguradora y, en especıfico, un modelo Poisson compuesto donde N ∼ Poisson(λ = 0.7),

mientras que los montos de reclamacion se distribuyen Gamma con α = 2, θ = 150. Utilizar

la aproximacion normal y lognormal para determinar las perdidas agregadas por arriba de

300.

Sabemos que E (S) = λE (X) y V (S) = λE (X2)

Ya que X es gamma(α, θ). Entonces E(X) = αθ y V(X) = αθ2. Por lo que

=⇒ E (X) = αθ = 300 y E (X2) = V (X) + E (X)2 = 45000 + 3002 = 135000

=⇒ E (S) = 0.7 ∗ 300 = 210 y V (S) = 0.7 ∗ 135000 = 94500

Para la aproximacion normal FS (300) = P [S ≤ 300] = φ

(300− 210√

94500

)85

= φ (0.292770022) = 0.615151

Las perdidas agregadas por arriba de 300 tienen una probabilidad de 0.384849 para la aprox-

imacion normal

Para la aproximacion lognormal E (S) = eµ+σ2

2 = 300 y E (S2) = e2µ+2σ2= 135000

Entonces

ln (300) = µ+ σ2

2y ln(135000) = 2µ+ 2σ2, =⇒ σ2 = 0.4054 y µ = 5.50108

Finalmente FS (300) = P [S ≤ 300] = φ

(ln (300)− 5.50108√

0.4054

)= φ (0.318364182) = 0.6249019

Mientras que con la aproximacion lognormal las perdidas agregadas que rebasan 300 acumu-

lan una probabilidad de 0.375098

0 500 1000 1500 2000

0.00

000.

0002

0.00

040.

0006

0.00

080.

0010

0.00

12

Aproximación Normal

s

f S(s

)

0 500 1000 1500 2000

0.00

000.

0005

0.00

100.

0015

0.00

200.

0025

0.00

30

Aproximación Log−Normal

s

f S(s

)

A continuacion se muestra graficamente la comparacion de ambas aproximaciones con re-

specto a sus funciones de densidad resultantes, en donde se puede observar que para valores

86

muy grandes la cola de la distribucion lognormal se encuentra por encima de la funcion de

densidad normal, situacion que caracteriza este tipo de distribucion. Ademas, algo que se

puede destacar es que, aunque las esperanzas de las dos distribuciones no estan tan alejadas,

la varianza de la distribucion normal es mayor, por poco mas del doble que la varianza de la

distribucion lognormal. Y aunque para valores entre 150 y 300 las funciones de distribucion

acumulen probabilidades similares, en realidad para valores pequenos la distribucion normal

acumula probabilidades mayores a la lognormal y vicerversa, para valores grandes se va acu-

mulando mayor probabilidad en la distribucion lognormal contra la normal.

0 500 1000 1500 2000

0.00

000.

0005

0.00

100.

0015

0.00

200.

0025

0.00

30

Comparaciones aproximaciones Normal vs. Log−Normal

s

f S(s

)

Aproximación NormalAproximación Log−Normal

87

0 500 1000 1500 2000

0.4

0.6

0.8

1.0

Comparaciones aproximaciones Normal vs. Log−Normal

s

FS(s

)

Aproximación NormalAproximación Log−Normal

88

Aproximacion Gamma trasladada

Como su nombre lo expresa, bajo esta aproximacion supondremos que el riesgo S asume

una distribucion Gamma, pero para conocer exactamente los parametros que ajustan a

esta distribucion, se debe igualar las caracterısticas numericas de la distibucion de S a las

caracterısticas numericas de una nueva variable aleatoria que es:

k + Z

donde k es una constante y Z es la variable aleatoria que se distribuye Gamma(α, θ) y tiene

f.d.p.

fZ (z) =zα−1e−

zθ

θαΓ (α), z > 0

Entonces, primero se suponen conocidos o estimados los valores de E (S) = µ, V ar (S) = σ2 y

el coeficiente de sesgoE[(S − E (S))3

][V ar (S)]3/2

= τ, τ > 0; estos se igualaran a sus correspondientes

de la v.a. k + Z que son:

• E (k + Z) = k + αθ

• V ar (k + Z) = θ2α

•E[(k + Z − E (k + Z))3

][V ar (k + Z)]3/2

=2√α

De forma que

µ = k + αθ σ2 = θ2α τ =2√α

Resolviendo el sistema de ecuaciones para determinar los valores k, α y θ.

√α =

2

τ=⇒ α =

4

τ 2, luego de σ2 = θ2α sustituyendo α se tiene

89

σ2 = θ24

τ 2=⇒ θ2 =

σ2τ 2

4=⇒ θ =

στ

2

y finalmente de µ = k + αθ se obtiene k

k = µ− αθ = µ− 4

τ 2στ

2= µ− 2σ

τ.

Ası, por medio de la aproximacion gamma trasladada, el riesgo S tiene una distribucion

aproximada

S ∼ µ− 2σ

τ+Gamma

(4

τ 2,στ

2

)

Habra ocasiones en las cuales el parametro θ puede ser reemplazado por 1θ

y basta invertir

las igualdades para construir la distribucion Gamma de S.

Esta aproximacion generalmente se sugiere realizarla cuando la distribucion de S se muestra

sesgada hacia la derecha, razon por la cual τ > 0; y porque la forma que toma dicha

distribucion es aproximadamente la de una densidad Gamma con parametros α y θ; sin

embargo, ademas de considerar esto, se le suma la constante k para obtener menos errores

en el ajuste.

Finalmente se llega a la siguiente proposicion.

Proposicion

Para cualquier s > 0.

FS (s) = P [S ≤ s] ≈ Gamma (s− k;α, θ)

Ejemplo

Supongamos que, bajo el modelo Poisson compuesto, el numero de reclamaciones tiene dis-

tribucion Poisson(λ = 10) y el monto de las reclamaciones Xi ∼ χ2(4). Determinar FS (8)

por medio de la aproximacion gamma trasladada.

90

En general χ2(k) es una distribucion Gamma

(k

2, 2

)=⇒ Para cada Xi se tiene que fX (x) =

x2−1e−xθ

22Γ (2)donde Xi ∼ Gamma(2, 2)

Lo primero es encontrar los tres primeros momentos de S, para lo cual utilizaremos las

propiedades de la f.g.m. de las Xi y de ahı obtener los valores de µ, σ2 y τ para S.

=⇒MX (t) = (1− θt)−α = (1− 2t)−2

MX(t) = −2(1− 2t)−3(−2) = 4(1− 2t)−3|t=0 = 4, E (X) = 4

MX ´ (t) = −12(1− 2t)−4(−2) = 24(1− 2t)−4|t=0 = 24, E (X2) = 24

MX ´ (t) = −96(1− 2t)−5(−2) = 192(1− 2t)−5|t=0 = 192, E (X3) = 192

De aquı podemos obtener

µ = λE (X) = 10 ∗ 4 = 40

σ2 = λE (X2) = 10 ∗ 24 = 240

τ =λE (X3)√(λE (X2))3

=10 ∗ 192√(10(24))3

=8√240

Por lo que α =4

τ 2=

482

240

= 15,

θ =στ

2=

√240 8√

240

2= 4 y k = µ− 2σ

τ= −20

=⇒ S ∼ Gamma(s+ 20, 15, 4)

Por lo tanto FS (8) ≈ Gamma (28, 15, 4)) = Γ (15, 7)

Para el ejemplo S ∼ Gamma(28, α = 15, θ = 4), evaluando directamente en R, y recordando

que a parametrizacion que usa este paquete es1

θ, obtenemos

FS (28, 15, 1/4) = 0.005717202

91

La siguiente grafica muestra las funciones de densidad y distribucion asociadas

0 50 100 150

0.00

00.

005

0.01

00.

015

0.02

00.

025

Aproximación Gamma transladada

s

f S(s

)

0 50 100 150

0.0

0.2

0.4

0.6

0.8

1.0

Aproximación Gamma transladada

s

FS(s

)

Aproximacion Poisson Compuesta

La Aproximacion Poisson Compuesta es otro metodo util, bajo el que se pretende aproximar

el modelo de riesgo individual al modelo de riesgo colectivo, tal situacion se realiza porque

existen mas metodos para el calculo de la distribucion de S en el modelo colectivo; incluso

es indispensable saber que los siguientes metodos a desarrollar se basan en la construccion

del modelo colectivo.

En el modelo individual S =n∑i=1

Xi donde Xi i = 1, 2, ..., n son v.a.´s independientes,

Xi = RiBi y Bi es el monto de la reclamacion de la poliza i. Ademas, la v.a. Bernoulli (Ri)

del modelo individual asigna el valor de 1 cuando se efectua un reclamacion con probabilidad

qi y 0 con probabilidad (1− qi) de manera que su f.g.p. es:

PRi = (1 + qi (z − 1))

92

Bajo este metodo la Aproximacion Poisson Compuesta asume que la v.a. Ri se distribuira

Poisson (λi) , para ello se proponen 3 metodos que asignan diferentes valores al parametro

λi de esta distribucion Poisson

1. El primero iguala las esperanzas de la v.a. Bernoulli(qi) con la de una v.a. Poisson(λi) ,

entonces:

λi = qi; i = 1, 2, ..., n

Esta opcion es buena para valores de qi cercanos a cero.

2. El segundo iguala la probabilidad en cero de ambas variables aleatorias, es decir

1− qi = e−λi

=⇒ln (1− qi) = −λi

∴ λi = − ln (1− qi) ; i = 1, 2, ...n y − ln (1− qi) > qi

3. El ultimo metodo fue propuesto por Kornya y usa el siguiente valor para cada λi

λi =qi

1− qi; i = 1, 2, ..., n

A su vez, el numero esperado de perdidas de este metodo es mas grande que la esperanza

del segundo.

Para el caso del Modelo individual la f.g.m. de S asociada es

MS (t) =n∏i=1

PRi [MBi (t)]

considerando que Ri ahora se distribuye Poisson, entonces

93

MS (t) =n∏i=1

exp (λi [MBi (t)− 1])

por el resultado sobre la suma de distribuciones poisson compuesta, tenemos

λ =n∑i=1

λi, MX (t) =n∑i=1

λiλMBi (t) y fX (x) =

n∑i=1

λiλfBi (x)

Ejemplo

Considerando los datos de la companıa aseguradora en donde se cubren 3 diferentes grupos

de asegurados, utilizar la Aproximacion Poisson Compuesta para el modelo individual y pos-

teriormente con la aproximacion normal encontrar FS (1900) para los 3 valores que puede

tomar λ.

La tabla correspondiente a este seguro es

i # de polizas Probabilidad de reclamacion Monto de Reclamacion1 1000 0.05 102 2000 0.10 53 500 0.02 20

• Primeramente, con λi = qi

λ =3∑i=1

niλi = (1000 ∗ 0.05) + (2000 ∗ 0.10) + (500 ∗ 0.02) = 260

=⇒

fX (10) =1000 ∗ 0.05 ∗ 1

260+

2000 ∗ 0.10 ∗ 0

260+

500 ∗ 0.02 ∗ 0

260= 0.192307692

fX (5) =1000 ∗ 0.05 ∗ 0

260+

2000 ∗ 0.10 ∗ 1

260+

500 ∗ 0.02 ∗ 0

260= 0.769230769

94

fX (20) =1000 ∗ 0.05 ∗ 0

260+

2000 ∗ 0.10 ∗ 0

260+

500 ∗ 0.02 ∗ 1

260= 0.038461538

Por ser Poisson compuesto

E (S) = λE (X) = 260 ∗ [(10 ∗ 0.192307692) + (5 ∗ 0.769230769) + (20 ∗ 0.038461538)]

= 260 ∗ 6.538461525 = 1699.999

V ar (S) = λE (X2) = 260 ∗ 53.84615363 = 13999.99994

=⇒

FS (1900) = P[S − 1699.999√

13999.99994≤ 1900− 1699.999√

13999.99994

]= P [z ≤ 1.690317021]

= φ (1.690317021) = 0.9545155

• Con λi = − ln (1− qi)

λ =3∑i=1

λi = (1000 ∗ (− ln(0.95))) + (2000 ∗ (− ln (0.9))) + (500 ∗ (− ln (0.98)))

= 272.1156794=⇒

fX (10) =1000 ∗ (− ln(0.95)) ∗ 1

272.1156794= 0.188498121

fX (5) =2000 ∗ (− ln (0.9)) ∗ 1

272.1156794= 0.774380336

fX (20) =500 ∗ (− ln (0.98)) ∗ 1

272.1156794= 0.037121542

E (S) = 272.1156794 ∗ 6.49931373 = 1768.565171

V ar (S) = 272.1156794 ∗ 53.0579373 = 14437.89666

FS (1900) = P[z ≤ 1900− 1768.565171√

14437.89666

]= P [z ≤ 1.093851836]

= φ (1.093851836) = 0.86299

95

• Para λi =qi

1− qi

λ =3∑i=1

λi =

(1000 ∗

(0.05

0.95

))+

(2000 ∗

(0.10

0.9

))+

(500 ∗

(0.02

0.98

))

= 285.0578828=⇒

fX (10) =1000 ∗ (0.05/0.95) ∗ 1

285.0578828= 0.184634708

fX (5) =2000 ∗ (0.1/0.9) ∗ 1

285.0578828= 0.779568767

fX (20) =500 ∗ (0.02/0.98) ∗ 1

285.0578828= 0.035796525

E (S) = 285.0578828 ∗ 6.460121415 = 1841.508533

V ar (S) = 285.0578828 ∗ 52.27129998 = 14900.3461

FS (1900) = P[z ≤ 1900− 1841.508533√

14900.3461

]= P [z ≤ 0.479175203]

= φ (0.479175203) = 0.684093

El siguiente grafico es el comparativo de las funciones de densidad de S que surgen de la

Aproximacion Poisson con cada uno de los metodos realizados

96

0 500 1000 1500 2000 2500 3000

0.00

00.

001

0.00

20.

003

0.00

4Comparación aproximación Poisson

s

f S(s

)

Método 1Método 2Método 3

Mediante las aproximaciones podemos conocer la distribucion para S, sin embargo, es factible

que los resultados no se acerquen tanto a la realidad puesto que no se poseen muchas bases

para justificar que las distintas aproximaciones (normal, lognormal o gamma) se ajusten a

la distribucion de los datos; y simplemente se pueden tomar estas decisiones por el aparente

comportamiento del numero de reclamaciones y de las colas que tengan. Por ejemplo, si

tuvieramos el caso en que existe un lımite de poliza para las perdidas, serıa muy probable que

la severidad de nuestros datos tuviera una masa de probabilidad en este punto, debido a que

todas las reclamaciones que hayan excedido el monto u solo recibiran a lo mas esta cantidad

y eso determinarıa dicha probabilidad; por lo cual, esta situacion generarıa irregularidades

en la forma de la distribucion, y por tal situacion, utilizar un metodo de aproximacion no

serıa la mejor manera de conocer la distribucion del riesgo. Por tal motivo, a continuacion

se desarrollaran otras propuestas de metodos que sirven para determinar la distribucion del

riesgo S.

97

Calculo de la distribucion de S a traves de convoluciones

Vimos en el desarrollo de la distribucion del monto agregado de reclamaciones, S, que esta

se especifica por medio de convoluciones de la variable asociada a la severidad, mediante un

calculo recursivo. Concretamente

F ∗kX (x) =

∫ ∞−∞

F(k−1)X (x− y)dFX(y) para k = 1, 2, ...

y su densidad

f ∗kX (x) =

∫ ∞−∞

f(k−1)X (x− y)fX(y)dy para k = 1, 2, ...

Unicamente para mostrar lo complejo que puede ser este calculo, presentaremos un ejemplo

muy sencillo que ilustra como se realiza.

Ejemplo

Sea P(N = j−1) = j/10 para j = 1, 2, 3, 4, la funcion de densidad discreta, y sea X una dis-

tribucion de perdida que toma solo dos valores, con probabilidades f(1) = 0.4 y f(2) = 0.6.

Encontrar las correspondientes funciones de densidad y distribucion de S, calculando la con-

volucion. En este caso, las distribuciones de N y X son discretas, ası que debemos utilizar

las formulas recursivas

F ∗kX (x) =x∑y=0

F∗(k−1)X (x− y)fX(y) y

f ∗kX (x) =x∑y=0

f∗(k−1)X (x− y)fX(y) para x=0,1,2,..., k=1,2,...

Observemos primero que:

f ∗0X (0) = 1 y f ∗0X (x) = 0 ∀x 6= 0 y para k = 1, f ∗1X (x) = fX(x) y para k = 2,

f ∗2X = Pr(X1 +X2 = x), etc.

Realizando lo calculos obtenemos la siguiente tabla

98

x f ∗0(x) f ∗1(x) f ∗2(x) f ∗3(x) fS(x) FS(x)0 1 0 0 0 0.1000 0.10001 0 0.4 0 0 0.0800 0.18002 0 0.6 0.16 0 0.1680 0.34803 0 0 0.48 0.064 0.1696 0.51764 0 0 0.36 0.288 0.2232 0.74085 0 0 0 0.432 0.1728 0.91366 0 0 0 0.216 0.0864 1

P (N = n) 0.1 0.2 0.3 0.4

Ahora veamos como se generan estos valores. Tenemos cuatro valores para N ; n = 0, 1, 2, 3,

con probabilidades asociadas p0 = 0.1, p1 = 0.2, p2 = 0.3, p3 = 0.4. Por lo tanto, la funcion

de densidad de S se puede escribir como

fS(x) =3∑

n=0

pnf∗nX (x)

Para simplificar la notacion, omitiremos el subındice X. Ya vimos que f ∗0(0) = 1, y es

el unico valor distinto de cero para la segunda columna de nuestra tabla. Ademas de esta

funcion, ya tenemos definada f ∗1, que, como se puede calcular a traves del proceso recursivo,

la construiremos solo con fines ilustrativos. Entonces, como calculamos f ∗1?

Primero

f ∗1(x) =x∑y=0

f ∗0(x− y)f(y), x = 0, 1, 2, ...

Antes de iniciar el calculo de las convoluciones involucradas, reflexionemos un poco.

• Sabemos que f ∗0(x) 6= 0⇐⇒ x = 0. Por lo tanto, los unicos casos relevantes para evaluar

esta funcion son cuando x = y.

• f(x) o en la formula f(y) solo esta definida para valores de y = 1 y y = 2, por lo que

f(y) = 0 ∀ y 6= 1, 2. Ahora sı, iniciemos los calculos.

99

Entonces tenemos lo siguiente

x = 0, y = 0⇒ f ∗1(0) = f ∗0(0)f(0) = 0

x = 1, y = 0⇒ f ∗1(1) = f ∗0(1)f(0) = 0

x = 1, y = 1⇒ f ∗1(1) = f ∗0(0)f(1) = 1 ∗ 0.4 = 0.4

x = 2, y = 0⇒ f ∗1(2) = f ∗0(2)f(2) = 0

x = 2, y = 1⇒ f ∗1(2) = f ∗0(1)f(1) = 0

x = 2, y = 2 ⇒ f ∗1(2) = f ∗0(0)f(2) = 1 ∗ 0.6 = 0.6. Observese que ya no hay mas valores

distintos de cero (f(y) se define como cero para y > 2), para valores que puede tomar x, y los

valores distintos de cero corresponden a la funcion original de densidad. Analicemos ahora

como construir f ∗2 = Pr(X1 +X2 = x). Primero tenemos que

f ∗2(x) =x∑y=0

f ∗1(x− y)f(y), x = 0, 1, 2, ...

Dado que f(y) solo es distinta de cero para y = 1 y y = 2, entonces, esta evaluacion

unicamente tiene sentido para estos valores en y, y cualesquiera otros en x. Por completez,

calcularemos algunos no incluidos en esta restriccion, para verificar que son cero.

Entonces

x = 0, y = 0⇒ f ∗2(0) = f ∗1(0)f(0) = 0

x = 1, y = 0⇒ f ∗2(1) = f ∗1(1)f(0) = 0

x = 1, y = 1⇒ f ∗2(1) = f ∗1(0)f(1) = 0

x = 2, y = 0⇒ f ∗2(2) = f ∗1(2)f(0) = 0

x = 2, y = 1⇒ f ∗2(2) = f ∗1(1)f(1) = 0.4 ∗ 0.4 = 0.16

x = 2, y = 2⇒ f ∗2(2) = f ∗1(0)f(2) = 0

100

x = 3, y = 0⇒ f ∗2(3) = f ∗1(3)f(0) = 0

x = 3, y = 1⇒ f ∗2(3) = f ∗1(2)f(1) = 0.6 ∗ 0.4 = 0.24

x = 3, y = 2⇒ f ∗2(3) = f ∗1(1)f(2) = 0.4 ∗ 0.6 = 0.24

Aquı continuarıan los calculos con y = 3, pero, en este caso y los restantes, f(y) = 0. Por lo

tanto, no existen mas casos para los que f ∗2 sea distinta de cero. Por lo que tenemos que,

f ∗2(3) = 0.24 + 0.24 = 0.48.

Ası se puede continuar con el calculo de los demas elementos de la tabla.

Para ilustrar como construir fS(x) y FS(x). De la definicion de la primera

fS(x) =3∑

n=0

pnf∗n(x). Solo nos resta multiplicar los valores que hemos encontrado por las

correspondientes probabilidades de N . Por ejemplo, para x = 2, tenemos

fS(2) = p0∗f ∗0(2)+p1∗f ∗1(2)+p2∗f ∗2(2)+p3∗f ∗3(2) = 0.1∗0+0.2∗0.6+0.3∗0.16+0.4∗0 =

0.168.

La funcion de distribucion es simplemente el acumulado de la de densidad.

Este sencillo ejemplo muestra lo complicado que es encontrar la distribucion de S, sobre todo

por lo laborioso del calculo de la convolucion.

El codigo en R para este ejemplo, es

#convolucion

fr < −c(0.1, 0.2, 0.3, 0.4)

fs < −c(0, 0.4, 0.6, 0)#Se amplıa el vector para tener la misma dimension que el de severidad

Fs < −aggregateDist(”convolution”,model.freq = fr,model.sev = fs)

quantile(Fs)

CDFs < −Fs(c(0, 1, 2, 3, 4, 5, 6))

101

dfs < −diff(c(0, CDFs))

Las graficas de las funciones de distribucion y densidad de S, son

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

Distribución de S: Método convolución

s

FS(x

)

Densidad de S: Método convolución

0.00

0.05

0.10

0.15

0.20

Ejemplo con datos reales

Hagamos un modelo agregado utilizando convoluciones, con las dos tablas de datos dadas en

el libro de Loss Models from data to decision (Klugman), sobre un seguro dental para grupo.

Las tablas son las siguientes

102

Monto: X

x fX(x)1 0.1502 0.2003 0.2504 0.1255 0.0756 0.0507 0.0508 0.0509 0.02510 0.25

dado en unidades de 25 dolares.

Frecuencia: N

n p(N =n)0 0.051 0.102 0.153 0.204 0.255 0.156 0.067 0.038 0.01

que representa la distribucion del numero de personas por cada “certificado de seguro” (i.e.,

por cada empleado) que recibieron cuidados dentales en el ano que cubre el seguro. La

solucion la haremos totalmente en R

103

Metodos Recursivos

Formula Recursiva de Panjer

La distribucion del riesgo S la mayorıa de las ocasiones no es sencilla de obtener y a pesar

de que se puede obtener con el calculo directo de la convolucion

FS(s) =∞∑n=0

pnF∗nX (x)

no suele ser una cuestion trivial. Primero porque las convoluciones de F ∗nX (x) no siempre

tienen forma de alguna distribucion conocida; pero mas importante aun, este calculo se

vuelve complejo a medida que aumenta el numero de elementos en la convolucion, inclusive

con las computadoras muy potentes, porque el numero de operaciones que se deben llevar a

cabo, es muy elevado.

Es por esta razon que a traves de la Formula Recursiva de Panjer los calculos pueden ser

minimizados. Para ello, debemos retomar los conceptos que manejamos en los modelos

compuestos de frecuencia, donde considerabamos el modelo de riesgo colectivo tomando la

distribucion de frecuencia y la de severidad como distribuciones discretas. Entonces, la

distribucion compuesta de S

S = X1 +X2 + · · ·+XN

se obtenıa mediante gk =∞∑n=0

pnf∗nk ;

donde gn = P [S = n] , pn = P [N = n] ; fn = P [X = n], y f ∗nk , k = 0, 1, ... es la n-esima

convolucion de fk.

Para determinar gk del riesgo S, lo primero que requerimos es pedir que la distribucion

asociada a la frecuencia, sea miembro de las clase (a,b,0) o (a,b,1). Esto porque las formulas

desarrolladas por Panjer quedan expresadas con base en estas distribuciones.

• Si la distribucion primaria es miembro de la clase (a,b,0), se tiene la formula recursiva:

104

gk =1

1− af0

k∑j=1

(a+

bj

k

)fjgk−j; k = 1, 2, 3, ...

Para el valor de g0,

g0 =

p0 = P [N = 0] si f0 = P [X = 0] = 0

PN (f0) o MN (log f0) si f0 = P [X = 0] > 0

Teorema

Para cualquier distribucion compuesta, g0 = PN (f0), donde PN (z) es la f.g.p. de la dis-

tribucion primaria y f0 es la probabilidad de la distribucion secundaria cuando toma el valor

de cero.

Ademas necesitamos los siguientes resultados previos a la demostracion de la Formula re-

cursiva de Panjer:

E[a+

bX1

k| S = k

]= a+ E

[bX1

k| S = k

]= a+

b

kE [X1 | S = k]

= a+b

nk

n∑j=1

E

[Xj |

n∑i=1

Xi = k

]= a+

b

nkE

[n∑j=1

Xj |n∑i=1

Xi = k

]

= a+bk

nk= a+

b

n

y se puede escribir como

E[a+

bX1

k| S = k

]=

k∑j=0

(a+

bj

k

)P [X1 = j| S = k]

=k∑j=0

(a+

bj

k

)P [X1 = j]P [S −X1 = k − j]

P [S = k]

Dem. (Formula Recursiva de Panjer):

105

gk =∞∑n=1

pnf∗nk =

∞∑n=1

pnP [X1 +X2 + · · ·+Xn = k] =∞∑n=1

pnP [S = k]

ademas los miembros de la clase (a,b,0) satifacen que pn =

(a+

b

n

)pn−1; n = 1, 2, 3, ...

=⇒ gk =∞∑n=1

(a+

b

n

)pn−1P [S = k] luego por los resultados previos

=∞∑n=1

pn−1

k∑j=0

(a+

bj

k

)P [X1 = j]P [S −X1 = k − j]

=k∑j=0

(a+

bj

k

)P [X1 = j]

∞∑n=1

pn−1P [S −X1 = k − j]

con la notacion de gn = P [S = n] , pn = P [N = n] y fn = P [X = n] y notando que la ultima

suma vuelve a quedar en terminos de g, finalmente

gk =k∑j=0

(a+

bj

k

)fjgk−j = af0gk +

k∑j=1

(a+

bj

k

)fjgk−j

gk (1− af0) =k∑j=1

(a+

bj

k

)fjgk−j

por lo tanto

gk =1

(1− af0)

k∑j=1

(a+

bj

k

)fjgk−j

Analogamente

• Si la distribucion primaria es miembro de la clase (a,b,1), la formula recursiva es:

gk =

[p1 − (a+ b)p0] fk +k∑j=1

(a+

bj

k

)fjgk−j

1− af0; k = 1, 2, 3, ...

106

Estos resultados se pueden considerar de manera particular y tomando en cuenta la notacion

asociada con fS (x) =∞∑n=0

pnf∗nX (x), es decir, supongamos que la distribucion de severidad

fX (x) esta definida para los valores de 0, 1, 2, ...,m, porque en efecto los montos de recla-

macion que recibe una companıa aseguradora generalmente tienen un tope de pago, y que

la frecuencia de las reclamaciones es pk, entonces:

• Para pk de la clase (a,b,1)

fS (x) =

[p1 − (a+ b)p0] fX (x) +x∧m∑y=1

(a+

by

x

)fX (y) fS (x− y)

1− afX (0)

donde x ∧m representa el min(x,m).

• Para pk de la clase (a,b,0)

fS (x) =

x∧m∑y=1

(a+

by

x

)fX (y) fS (x− y)

1− afX (0)

Cuando la distribucion es Poisson, sabemos que a = 0, b = λ. Entonces la formula se reduce

a:

fS (x) =λ

x

x∧m∑y=1

yfX (y) fS (x− y) ; x = 1, 2, 3, ..

Ademas, de igual forma que en la formulas recursivas anteriores, el valor inicial para deter-

minar la densidad de S es fS (0) = PN [fX (0)]

Ejemplo

Utilizando el metodo recursivo encontrar la probabilidad de que haya mas de tres recla-

maciones agregadas, cosiderando que el modelo de riesgo colectivo se distribuye Poisson-

Binomial Negativa. Donde la distribucion primaria es Poisson con λ = 2, y la distribucion

107

secundaria es Binomial Negativa con β = 1.5 y r = 5

Deseamos 1−FS (3) . Entonces para la distribucion Binomial Negativa, recordando como se

escriben los modelos de la clase (a,b,0), tenemos

a =β

1 + β= 0.6 y b = (r − 1)

β

1 + β= 2.4, con

fX (0) = (1 + β)−r = (1 + 1.5)−5 = 0.01024

Utilizando la forma recursiva de esta distribucion, calculamos el resto de valores necesarios

para encontrar la probabilidad que nos piden, como

fX (1) = (0.6 + 2.4) ∗ 0.01024 = 0.03072

fX (2) =

(0.6 +

2.4

2

)∗ 0.03072 = 0.055296

fX (3) =

(0.6 +

2.4

3

)∗ 0.055296 = 0.0774144

El primer valor del modelo agregado o de la funcion de densidad de S es

fS (0) = PN (fX (0)) = e2(fX(0)−1) = e2(0.01024−1) = 0.138135526

Para el resto de valores, recordar que nuestra distribucion Poisson escrita como un elemento

de la clase (a,b,0), tiene a = 0 y b = λ = 2. Entonces

fS (x) =2

x

x∑y=1

yfX (y) fS (x− y)

fS (1) =

(2

1∗ 0.03072 ∗ 0.138135526

)= 0.008487047

fS (2) =

(2

2∗ 0.03072 ∗ 0.008487047

)+

(2

2∗ 2 ∗ 0.055296 ∗ 0.138135526

)

108

= 0.015537406

fS (3) =

(2

3∗ 0.03072 ∗ 0.015537406

)+

(2

3∗ 2 ∗ 0.055296 ∗ 0.008487047

)

+

(2

3∗ 3 ∗ 0.0774144 ∗ 0.138135526

)= 0.022331297

=⇒ 1− FS (3) = 1− (0.138135526 + 0.008487047 + 0.015537406 + 0.022331297)

= 0.815508724

La probabilidad de que existan mas de tres reclamaciones bajo el modelo agregado es

0.815508724. A continuacion se muestran los valores de las funciones de densidad y la

distribucion de S que se generaron por medio de R y para los primeros 6 valores.

x fS (x) FS (x)0 1.381355e− 01 0.13813551 8.487047e− 03 0.14662262 1.553741e− 02 0.16216003 2.233130e− 02 0.18449134 2.785252e− 02 0.21234385 3.175299e− 02 0.24409686 3.414236e− 02 0.2782392

109

0 20 40 60 80 100 120

0.0

0.2

0.4

0.6

0.8

1.0

Distribución de Reclamaciones Agregadas

Aproximación Método Recursivo (Panjer)s

FS(s

)

Aproximación Método Recursivo (Panjer)Densidad de Reclamaciones Agregadas

Aproximación Método Recursivo (Panjer)s

f S(s

)

0.00

0.02

0.04

0.06

0.08

0.10

0.12

110

Datos reales

Nuevamente seguro dental del libro de Klungman

X : Monto N : Frecuenciax fX(x) n p(N =n)

1 0.150 0 0.052 0.200 1 0.103 0.250 2 0.154 0.125 3 0.205 0.075 4 0.256 0.050 5 0.157 0.050 6 0.068 0.050 7 0.039 0.025 8 0.0110 0.25

Con solucion completa en R.

De esta forma es como se implementa la Formula Recursiva de Panjer simpre que las

distribuciones de frecuencia en las reclamaciones agregadas no sean a su vez distribuciones

compuestas, puesto que cuando esta situacion se presenta, para poder llevar a cabo el calculo

de fS (x) se debe aplicar dicha formula por partida doble; esto es, consideremos la f.g.p. para

N :

PN(z) = P1 [P2 (z)]

donde P1 es la f.g.p. de la distribucion primaria de frecuencias y P2 la secundaria.

De tal manera que para las reclamaciones agregadas

PS (z) = PN [PX (z)] = P1 [P2 (PX (z))] que podemos reescribir como

PS (z) = P1 [PS1 (z)] ; claramente PS1 = P2 [PX (z)] .

Esta distribucion de S1 debera ser la primera que se calcule mediante la formula de Panjer,

dando como resultado fS1 (x) ; x = 0, 1, 2, ... que funcionara como la nueva distribucion de

“severidad” para encontrar fS(x); es decir, nuevamente se aplicara la formula recursiva,

comenzando por fS (0) = PS (0) = P1 [fS1 (0)] y posteriormente utilizando los valores de

111

fS1 (x) como las probabilidades de la distribucion de severidad mientras que pn en esta

segunda vuelta sera determinada por la distribucion primaria de frecuencias.

Se ha utilizado el supuesto de que la severidad posee una distribucion discreta para poder

aplicar el metodo recursivo; sin embargo, el analogo para este metodo, considerando que la

severidad es continua, queda expresado por medio de una ecuacion integral.

Teorema

Para distribuciones de frecuencia de la clase (a,b,1) y cualquier distribucion de severidad

continua con soporte en los reales positivos, se tiene la siguiente ecuacion integral que deter-

mina la densidad del riesgo S :

fS (x) = p1fX (x) +

∫ x

0

(a+

by

x

)fX (y) fS (x− y) dy

Las ecuaciones integrales de esta forma corresponden a ecuaciones integrales de Volterra de

segundo orden, y la demostracion de este teorema queda fuera de los alcances de este curso.

Existen soluciones numericas para estas ecuaciones que pueden ser consultadas en el libro

de Baker [13]. Sin embargo, en este estudio se utilizaran aproximaciones discretas para dis-

tribuciones continuas que modelen la severidad en las reclamaciones por medio del metodo

de redondeo, con el proposito de implementar el Metodo Recursivo de Panjer.

112

Metodo de Redondeo

Mencionamos y ademas vimos en los ejemplos, que el metodo de Panjer no funciona cuando

la densidad de la severidad es continua, por lo que debemos recurrir a discretizar esta funcion

para poder aplicar Panjer. El metodo de redondeo es una buena herramienta pa este fin. Este

metodo se utiliza para construir distribuciones discretas a partir de distribuciones de severi-

dad que sean continuas. Para ello se deben asignar probabilidades discretas en multiplos de

alguna unidad de medida establecida h, que recibe el nombre de “span”; dicha distribucion

se conoce como aritmetica puesto que se define para enteros positivos.

El metodo de redondeo concentra la probabilidad de la mitad del span h, dividiendo la

probabilidad entre (j + 1)h y jh, de manera que asigna dicha mitad al punto j + 1 y la otra

al punto j. Es decir, si fj es la probabilidad comprendida en jh; j = 0, 1, 2, ...

f0 = P[X <

h

2

]= FX

(h

2

)

fj = P[jh− h

2≤ X < jh+

h

2

]= FX

(jh+

h

2

)− FX

(jh− h

2

)

Cuando la distribucion a discretizar no esta acotada, lo mas apropiado es limitar los valores

que toma en algun punto m, que asegure una acumulacion de probabilidades lo mas cercana

a uno que se pueda, entonces fm = 1−FX [(m− 0.5)h] . De tal manera que las probabilidades

nunca sean negativas y la suma de ellas sea 1, para asegurar que realmente es una funcion

de densidad de probabilidades.

Ejemplo

Supongase que la severidad de las perdidas agregadas sigue una distribucion Pareto con

α = 4 y θ = 50. Obtener su distribucion discreta mediante el metodo de redondeo con un

span de 0.9.

X ∼ Pareto(4, 50) y h = 0.9. Entonces

f0 = FX

(0.9

2

)= 1−

(50

0.45 + 50

)4

= 0.035204354

fj = FX (0.9j + 0.45)− FX (0.9j − 0.45)

113

=

(50

(0.9j − 0.45) + 50

)4

−(

50

(0.9j + 0.45) + 50

)4

En terminos generales la funcion de densidad discreta queda expresada con fj. Evaluemos

la funcion para j = 0, 1, ..., 10 con el fin de mostrar sus valores en la siguiente tabla.

j fj0 0.0352043541 0.0658814782 0.0603528253 0.0553716894 0.0508758445 0.0468110146 0.0431297537 0.0397904898 0.0367567229 0.03399633710 0.031481019

Finalmente, la siguiente grafica muestra el ajuste de la distribucion continua a la distribucion

discreta

114

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

Comparación: Pareto (4,50) continua vs. discretizada

x

FX(x

)

RealDiscretización

0.00

0.01

0.02

0.03

0.04

0.05

0.06

RealDiscretización

Una vez que se tiene esta discretizacion de la funcion de severidad, se puede proceder a

aplicar el metodo de Panjer, para una distribucion discreta de las familias (a,b,0) o (a,b,1).

115

Metodos de Inversion

Hasta el momento hemos desarrollado diversos metodos para poder encontrar la distribucion

de las perdidas agregadas correspondientes a los modelos que se pueden presentar en los datos

de una aseguradora, entre ellos se utilizaron convoluciones, aproximaciones asintoticas y la

fomula recursiva de Panjer. Ademas, en la seccion anterior, tambien conocimos el metodo de

redondeo que se implementa para discretizar funciones continuas, de tal forma que posterior

a este proceso se pueda aplicar el metodo recursivo y finalmente conocer la distribucion del

riesgo acumulado.

Otros metodos para encontrar la distribucion de S se conocen como los de inversion. Estos

metodos numericos se basan en el hecho de la correspondencia unica entre las distribuciones

de las variables aleatorias con su funcion caracterıstica (f.c.), su funcion generadora de mo-

mentos (f.g.m.) y su funcion generadora de probabilidades (f.g.p.).

La razon por la cual se involucra a la funcion caracterıstica en los metodos de inversion, es

porque, ademas de ser unica, siempre existe. Por lo tanto, para una funcion caracterıstica

dada, siempre tendremos su unica y correspondiente funcion de distribucion que finalmente

es la que nos interesa hallar.

Dicha correspondencia tambien se respeta al tratarse de distribuciones compuestas, debido

a que su funcion caracterıstica queda expresada como una composicion de funciones que

cumplen lo anterior.

Por lo tanto, la funcion caracterıstica asociada a la distribucion de perdidas agregadas es:

ϕS (z) = E[eiSz]

= PN [ϕX (z)]

donde PN es la f.g.p. de la frecuencia y ϕX (z) la f.c. de la severidad.

Transformada Rapida de Fourier (FFT)

Este algoritmo lo utilizaremos para obtener la funcion de densidad de variables aleatorias

discretas con base en la transformacion de sus funciones caracterısticas. Entonces, la sigu-

iente definicion muestra la Transformada de Fourier adaptada para una f.d.p.

116

Definicion Para cualquier funcion de densidad de probabilidades continua f (x), la Trans-

formada de Fourier (funcion caracterıstica) asociada es:

f (z) =

∫ ∞−∞

f (x) eizxdx

La f.d.p. que se obtiene a partir de la Transformada de Fourier es:

f (x) =1

2π

∫ ∞−∞

f (z) e−izxdz

Para el caso, f (x) es una funcion definida en los reales y f (z) en los numeros complejos.

Mientras que la version discreta de esta transformada es la siguiente

Definicion Sea fx una funcion definida en todos los valores enteros de x. Para el vector

(f0, f1, ..., fn−1) la Transformada de Fourier discreta que tiene el vector(f0, f1, ..., fn−1

)se

define por medio de

fk =n−1∑j=0

fj exp

(2πi

njk

); k = 0, 1, ...

Este mapeo es biyectivo puesto que se transforman n puntos en n puntos.

La Transformada de Fourier Inversa es:

fj =1

n

n−1∑k=0

fk exp

(−2πi

nkj

); j = 0, 1, ...

Cabe senalar que la Transformada Rapida de Fourier (FFT) es un algoritmo empleado para

conocer la Transformada de Fourier, sin embargo no se estudiara el desarrollo del algoritmo,

aunque es importante mencionar que reduce el numero de calculos realizados a un orden de

(n log n) mientras que la evaluacion directa de la transformada lo harıa en n2 operaciones;

que se vuelve mas importante a medida que el valor de n es mas grande. Ademas, el unico

requerimiento que debemos considerar para aplicar este metodo es que el valor de n sea

potencia de 2.

117

Entonces, el proceso a seguir para hacer uso de la FFT y con ello conocer la distribucion de

S es:

• Discretizar la funcion de severidad de las perdidas agregadas por el metodo de redondeo

y obtener el siguiente vector de probabilidades

fX (0) , fX (1) , ..., fX (n− 1)

con n = 2r, r entero y n se define respecto a fS (s) que se desea obtener.

• Aplicar el algoritmo FFT al vector anterior para obtener la funcion caracterıstica de

los montos de reclamacion, en este caso ϕX (s) que igual es un vector de n entradas.

• Una vez conocida la funcion caracterıstica de la severidad y con la funcion generadora

de probabilidades del numero de reclamaciones, se hace la composicion de estas dos

para determinar la Transformadad de Fourier discreta (funcion caracterıstica) de las

perdidas agregadas.

• Finalmente, se implementa el algoritmo de la Transformada rapida de Fourier en orden

Inverso (IFFT) que proporcionara la f.d.p. del riesgo S.

118

Ejemplo

Encontrar a traves del metodo de la Transformada rapida de Fourier la funcion de densidad

de S, considerando n = 27, que la distribucion de severidad es Exponencial (1/4), el numero

de reclamaciones se distribuye Binomial Negativa (β = 0.25, r = 10) y que se tienen las

siguientes modificaciones de la cobertura del seguro:

Deducible: d = 5

Lımite de poliza: α (u− d) = 40

Coaseguro: α = 80%

Utilizar un “span” de 0.4 para el metodo de redondeo y considerar que son perdidas agregadas

de pago.

La resolucion de este ejemplo se hara mediante el uso de codigos en R. Esta situacion se debe

a que los calculos de la FFT solo son posibles con el uso de un programa computacional.

La distribucion de Y Pasociada y que se debe discretizar es

FY P =

0 y = 0

FX(y0.8

+ 5)− FX (5)

1− FX (5)0 < y < 40

1 y ≥ 40

En este caso que X ∼ Exp(1/θ) para FY P cuando 0 < y < α(u− d)

FY p (y) =

(1− e−

1θ (

yα+d))−(

1− e− dθ)

e−dθ

=e−

dθ − e−

1θ (

yα+d)

e−dθ

=e−

dθ

(1− e− y

αθ

)e−

dθ

= 1− e− yαθ

∴ Y P ∼ Exp(1/αθ), en el ejemplo Y P ∼ Exp(0.3125)

119

Codigo en R

a < −0.8

d < −5

l < −40

u < −(l/a) + d

h < −0.4

n < −27

fy < −discretize(pexp(x, rate = 0.3125),method = ”rounding”, from = 0, to = n ∗ h, step = h)

#Este vector resultante es la version discreta y aproximada de la distribucion de severidad

con las modificaciones de cobertura del seguro.

fcy < −fft(fy, inverse = FALSE) #Funcion caracterıstica de los montos de reclamacion.

Como el numero de reclamaciones tambien se modifica por las coberturas, siN ∼ BinNeg(β, r),

entonces

NP ∼ BinNeg(β∗ = βv, r) y v = 1− FX (5)

v < −(1− pexp(d, 1/4))

r < −10 ; b < −0.25

beta < −(v ∗ b)

La f.g.p. de NP es PNP (z) = [1− β∗ (z − 1)]−r

Entonces, la funcion caracterıstica de S, es

ϕS (s) = [1− β∗ (ϕY P (s)− 1)]−r

fcS < −(1− beta ∗ (fcy − 1))−r

120

Por ultimo, se realiza la IFFT (Transformada rapida de Fourier Inversa) agregando la division

entre n que no calcula la funcion de R pero que es parte de la formula para obtener la funcion

de densidad de S de acuerdo a su defincion.

fS < −Re(fft(fcS, inverse = TRUE))/n

Esta es la tabla resumen de valores para ϕY P (s) , ϕS (s) y fS (s) con n = 128.

s ϕY P (s) ϕS (s) fS (s)0 0.999999880 0.9999999 5.214224e− 011 0.866304586 0.8802309 3.862681e− 022 0.618238579 0.7162362 3.566183e− 023 0.418398588 0.6236285 3.290695e− 024 0.287939540 0.5768385 3.034938e− 025 0.205446738 0.5516760 2.797684e− 026 0.152087109 0.5369782 2.577756e− 027 0.116303997 0.5277549 2.374033e− 028 0.091418485 0.5216224 2.185448e− 02

0 20 40 60 80 100 120

0.0

0.2

0.4

0.6

0.8

1.0

Distribución de pérdidas agregadas: Método de Inversión

s

FS(s

)

121

Metodo de simulacion

El ultimo metodo que consideraremos para encontrar la distribucion de S en el modelo colec-

tivo, es el metodo de simulacion que contiene el paquete actuar. Para implementarlo debemos

conocer de manera analıtica tanto el modelo de frecuencias como el modelo de severidad.

Esto quiere decir que conocemos tanto los modelos subyacentes a la frecuencia y la severidad

de nuestros datos, ası como los parametros de ellos. Una vez conocidos estos modelos la

funcion aggregateDist en su opcion simulacion: simulation, simulara los datos del modelo de

perdidas agregadas que generan estos dos modelos para, posteriormente, construir la funcion

de distribucion acumulada del modelo agregado.

Metodo de De Pril

Para el Modelo de riesgo Individual tambien se desarrollo una formula recursiva que pro-

porciona la distribucion de S. Este resultado fue desarrollado por Nelson De Pril en 1986 y

considera un portafolio de n asegurados.

En este modelo se denota al numero de asegurados por nij, donde con j se representa la

probabilidad de reclamacion qj; j = 1, 2, ...,m y con i, el monto de la reclamacion realizada;

i = 1, 2, ..., r. De forma que

n =r∑i=1

m∑j=1

nij

Es indispensable que los montos de reclamacion sigan una progresion aritmetica, de manera

que los valores que corren sobre i puedan representar la progresion que tiene la severidad; es

decir, para valores de i = 1, 2, 3, 4 se pueden considerar, por ejemplo, los montos de beneficio

de los asegurados por las cantidades de 3000, 6000, 9000, 12000.

Probabilidad de reclamacion (j)

Monto de reclamacion (i)

q1 q2 · · · qm1 n11 n12 · · · n1m

2 n21 n22 · · · n2m

· · · · · · · · · · · · · · ·r nr1 nr2 · · · nrm

La funcion de densidad para S queda expresada por la siguiente formula recursiva

122

fS (x) =1

x

x∧r∑i=1

bx/ic∑k=1

fS (x− ik)h (i, k) ; x ≥ 1

fS (0) =r∏i=1

m∏j=1

(1− qj)nij

donde

h(i, k) = i(−1)k−1m∑j=1

nij

(qj

1− qj

)k

Dem:

Considerando la f.g.p. de Xij para este caso que involucra la probabilidad de reclamacion qj

y al monto i, entonces con esta nueva notacion

PXij (z) =(1− qj + qjz

i)

Luego la f.g.p. de S por la independencia de las Xijs sera

PS (z) =r∏i=1

m∏j=1

(1− qj + qjz

i)nij

tomando logaritmo y derivando respecto a z

ln [PS (z)] =r∑i=1

m∑j=1

nij ln(1− qj + qjz

i)

d

dzln [PS (z)] =

PS (z)

PS (z)=

r∑i=1

m∑j=1

nij

(iqjz

i−1

1− qj + qjzi

)

Entonces,

PS (z) = PS (z)

[r∑i=1

m∑j=1

nij

(iqjz

i−1

1− qj + qjzi

)]

zPS (z) = PS (z)

[r∑i=1

m∑j=1

nij

(iqjz

i

1− qj + qjzi

)]

123

= PS (z)

[r∑i=1

m∑j=1

nijiqjz

i

1− qj + qjzi1− qj1− qj

]

= PS (z)

[r∑i=1

m∑j=1

nijiqjz

i

1− qj

(1 +

qjzi

1− qj

)−1]

Si utilizamos el hecho de que1

1 + x, se puede expandir como

∞∑k=0

(−1)k xk para |x| < 1.

Entonces tenemos

= PS (z)

[r∑i=1

m∑j=1

nij iqjz

i

1− qj

∞∑k=1

(−1)k−1(

qjzi

1− qj

)k−1]

= PS (z)

[r∑i=1

m∑j=1

nij i∞∑k=1

(−1)k−1(

qj1− qj

)kzik

]

Ahora definimos h (i, k) = i (−1)k−1m∑j=1

nij

(qj

1− qj

)kDebido a que las sumas sobre k y j son absolutamente convergentes en cualquiera de los

dos ordenes que se realicen, entonces es valido intercambiarlas, por lo tanto, regresando al

desarrollo anterior, tenemos que

zPS (z) = PS (z)

[r∑i=1

∞∑k=1

h (i, k) zik

]

como PS (z) = E[zS]

=∞∑x=0

zxP [S = x] =∞∑x=0

zxfS (x) y

PS (z) =∞∑x=0

xzx−1fS (x) =∞∑x=1

xzx−1fS (x)

Entonces,

zP′S(z) = z

∞∑x=1

xzx−1fS (x) =∞∑x=0

xzxfS (x)

124

Por lo tanto

∞∑x=1

xzxfS (x) =∞∑x=0

zxfS (x)r∑i=1

∞∑k=1

h (i, k) zik

El coeficiente para x ≥ 1 de la parte izquierda de la igualdad de zx es xfS (x) y para valores

de i y k tales que 1 ≤ ik ≤ x. Mientras que el coeficiente para zx del otro lado de la

igualdad, es la suma de los terminos fS (x− ik)h (i, k). Se pueden primero establecer los

posibles valores para i de la siguiente forma i = 1, ..., x ∧ r, y por lo tanto los valores para

k son k = 1, ..., bx/ic, donde x ∧ r es el valor mınimo entre x y r, y bx/ic es la parte entera

del cociente x/i. Igualando estos coeficientes se tiene que

xfS (x) =x∧r∑i=1

bx/ic∑k=1

fS (x− ik)h (i, k)

∴ para x ≥ 1 fS (x) =1

x

x∧r∑i=1

bx/ic∑k=1

fS (x− ik)h (i, k)

y para S = 0 que es cuando no se efectua ninguna reclamacion, entonces x = 0 y de ahı

fS (0) =r∏i=1

m∏j=1

(1− qj)nij

De manera explıcita, los primeros terminos de esta formula son

fS (0) =r∏i=1

m∏j=1

(1− qj)nij

fS (1) = fS (0)h(1, 1)

fS (2) =1

2fS (0) [h(1, 2) + h(2, 1)] + fS (1)h(1, 1)

fS (3) =1

3fS (0) [h(1, 3) + h(3, 1)] + fS (1) [h(1, 2) + h(2, 1)] + fS (2)h(1, 1)

...

125

Ejemplo

Una aseguradora posee una cartera de 66 polizas para un seguro de vida. La siguiente tabla

muestra las probabilidades de reclamacion y los montos de reclamacion por grupo de asegura-

dos. Obtener la funcion de densidad de las perdidas agregadas para valores de x = 0, 1, ..., 30

mediante la formula recursiva de De Pril

# polizas Probabilidad de reclamacion Monto de reclamacion20 0.02 500014 0.012 100008 0.05 1500024 0.013 20000

Reescribiendo la tabla conforme a la Formula de De Pril:

Probabilidad de reclamacion (qj)

Monto de reclamacion (i)

0.02 0.012 0.05 0.0131 20 0 0 02 0 14 0 03 0 0 8 04 0 0 0 24

La implementacion de este metodo se realizo en R. A continuacion se muestra una tabla

resumen de los primeros valores de la funcion de densidad y distribucion de S, y su grafica

para x = 0, 1, ..., 30.

x fS (x) FS (x)0 0.2732243 0.27322431 1.115201e− 01 0.38474442 6.808043e− 02 0.45282483 1.366522e− 01 0.58947704 1.408985e− 01 0.73037555 6.588025e− 02 0.7962558

126

0 5 10 15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0

Distribución de Reclamaciones Agregadas

Método de De Prils

FS(s

)Densidad de Reclamaciones Agregadas

Método de De Prils

f S(s

)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

127

MEZCLAS DE DISTRIBUCIONES

INTRODUCCION

No siempre es posible modelar datos reales unicamente a traves de una densidad, general-

mente, estos datos presentan formas que no se ajustan adecuadamente a las densidades mas

conocidas en estadıstica. Una manera de lidiar con este problema, es considerar la posibil-

idad de que estos datos con formas no convencionales, puedan modelarse a traves de una

mezcla de densidades o de distribuciones. Dada la flexibilidad que tienen los modelos de

mezclas, es posible lograr un mejor ajuste a estos datos. Una de las formas comunes en

que aparecen este tipo de datos en la teorıa del riesgo es, por ejemplo, cuando los montos

de reclamacion de un seguro presentan una mayor variabilidad de la que puede considerar

cualquiera de los modelos estadısticos utilizados para su ajuste. Por ejemplo, en un seguro

de gastos medicos, si no existe un control de las edades de los asegurados, es muy probable

que se tenga diferente exposicion al riego entre ellos debido a esta diferencia de edades. De

hecho, esta falta de control propicia que la poblacion asegurada sea heterogenea y, como

sabemos, las densidades asumen, generalmente, poblaciones homogeneas.

Una mezcla de distribuciones con k componentes tiene la forma

f (x; θ) = π1f1 (x; θ1) + π2f2 (x; θ2) + · · ·+ πkfk (x; θk) , o

f (x; θ) =k∑i=1

πifi (x; θi) , con

k∑i=1

πi = 1

donde cada componente de la mezcla es una funcion de probabilidad (Poisson, Binomial, etc.)

o una funcion de densidad (Normal, Exponencial, Gamma, etc.), e incluso de distribuciones

multivariadas, y θ y θi, i = 1, 2, ..., k pueden ser vectores de parametros. En este caso,

tenemos una mezcla parametrica, puesto que los componentes de la misma son funciones

parametricas. Si los componentes de la mezcla se especifican de forma no parametrica,

entonces el modelo de mezcla sera tambien no parametrico.

128

Estimacion parametrica del modelo de mezclas

La manera usual de estimar los parametros y las proporciones (πi) es a traves del algoritmo

EM.

Algoritmo EM (Dempster, Laird,and Rubin (1977))

El algoritmo EM (Expectation-Maximization) es un metodo general para encontrar el es-

timador de maxima verosimilitud de los parametros de una distribucion de probabilidad,

especialmente util cuando parte de la informacion es desconocida o incompleta.

Situaciones de Datos Incompletos:

Explıcitas

• Datos Faltantes

• Datos truncados y/o censurados

• Datos agrupados

Implıcitas

• Efectos Aleatorios

• Mezclas

• Clases Latentes

• Estructuras de Variables Latentes

129

El algoritmo EM para mezclas de distribuciones

En el caso de mezclas de distribuciones, lo que desconocemos es la pertenecia o membresıa

de cada dato a alguno de los elementos de la mezcla.

Para fijar ideas, supongamos que la mezcla consta de dos distribuciones: f1 (x; θ1) y f2 (x; θ2) .

En este caso, los parametros a estimar son θ1, θ2, π1, π2 = 1− π1 . La manera estandar de

plantear esta situacion es con Y = (U,V), donde U representa los datos observados y V

representa la membresıa o pertenencia. Concretamente, V = 1 si la observacion es de la

primera distribucion, f1 (x; θ1) , y V = 0 si es de la segunda distribucion, f2 (x; θ2) . La esper-

anza no condicional E(V ) es la probabilidad de que una observacion provenga de la primera

distribucion, que es π1. La informacion completa pero desconocida de esta muestra es: U,

u1, ..., un, que representan los datos observados y V, v1, ..., vn son los datos desconocidos.

Entonces, los datos completos son parejas de la forma (u1, v1) , (u2, v2) , ..., (un, vn) con

vi = 1 o vi = 0.

El algoritmo realiza un proceso iterativo entre

Paso 1. Calcular la esperanza condicional de las cantidades desconocidas dadas las canti-

dades conocidas (Paso E)

Paso 2. Maximizar esta esperanza respecto a los parametros por estimar (Paso M)

Paso 3. Continuar el proceso iterativo hasta lograr convergencia.

Mezcla de distribuciones normales

Uno de los modelos de mezclas mas populares es sin duda el de distribuciones normales. En

un contexto actuarial, el uso de la normal como modelo para ajustar datos, es cuestionable

debido a que su suporte es R, y no R+ que es el soporte natural de los datos de monto

de reclamacion. No obstante, si la media de los modelos subyacentes a la mezcla esta muy

alejada del origen y la varianza no es muy grande, es posible utilizar este modelo de mezclas

para ajustar datos tıpicos de aplicaciones actuariales. El modelo para dos distribuciones

normales en la mezcla tiene la forma

130

f(x;µ1, µ2, σ

21, σ

22, π1

)= π1f1

(x;µ1, σ

21

)+ (1− π1) f2

(x;µ2, σ

22

)con

fi(x, µi, σ2i ) =

1√πσ2

i

exp

− 1

2σ2i

(x− µi)2, i = 1, 2

−4 −2 0 2 4 6 8

0.00

0.05

0.10

0.15

0.20

mezcla de densidades normales

x

Den

sida

d

Supongamos que tenemos n observaciones de X, x1, ..., xn, que representan los datos incom-

pletos. Los datos completos son de la forma (x1, v1), ..., (xn, vn), con vi = 1 o vi = 0.

La verosimilitud completa quedarıa como

Lc(θ; X,V) =n∏i=1

[N1(µ1, σ

21)]vi [N2(µ2, σ

22)]1−vi

Con correspondiente log-verosimilitud

131

`Lc(θ; X,V) =n∑i=1

vilog[N1(µ1, σ

21)]

+ (1− vi)log[N2(µ2, σ

22)]

Entonces, en el paso-E del algoritmo, dado un valor provisional de θ, debemos calcular “el

grado de membresıa” de cada uno de los datos a cualquiera de los dos grupos. Utilizando el

teorema de Bayes, de manera general tenemos que

p(j|xi) =f(xi|j)p(j)

f(x)=

f(xi|j)p(j)∑j f(xi|j)p(j)

En el caso de este ejemplo con dos mezclas normales y dado un valor provisional de θ = θ(k),

tenemos

E(V |xi, θ(k)) = π(k+1)ij =

πk1N1(µ(k)1 , σ2(k)

1 )2∑j=1

πkjNj(µ(k)j , σ2(k)

j )

con π(k)2 = 1− π(k)

1 = 1− π(k)

En cada paso-M, calcularemos los estimadores provisionales de los parametros utilizado el

grado de membresıa calculado en paso-E, previo. Estos grados de membresıa son pon-

deraciones para los estimadores maximo verosımilies. Que en este caso de mezcla de dos

distribuciones normales, adoptan las formas simples.

La expresiones para actualizar cada uno de los parametros involucrados son:

El Paso M : Probabilidad de pertenecer al primer elemento de la mezcla, es

E(V|x, θk

)=

π(k)1 N1

(x;µ

(k)1 , σ2(k)

1

)π(k)1 N1

(x;µ

(k)1 , σ2(k)

1

)+ (1− π(k)

1 )N2

(x;µ

(k)2 , σ2(k)

2

)de donde se desprende

π(k+1)1 =

1

n

n∑i=1

E(V|xi, θk

)132

Que es la proporcion de datos que pertenecen al primer elemento de la mezcla. La demas

actualizaciones son

µ(k+1)1 =

∑ni=1 π

(k+1)1 xi∑n

i=1 π(k+1)1

µ(k+1)2 =

∑ni=1

(1− π(k+1)

1

)xi∑n

i=1

(1− π(k+1)

1

)

σ2(k+1)

1 =

∑ni=1 π

(k+1)1

(xi − µ(k+1)

1

)2∑n

i=1 π(k+1)1

σ2(k+1)

2 =

∑ni=1

(1− π(k+1)

1

)(xi − µ(k+1)

1

)2∑n

i=1

(1− π(k+1)

1

)

Modelos de mezclas mas apropiados para datos actuariales

Es claro que la naturaleza de la informacion que se utiliza en las aplicaciones actuariales,

hace cuestionable que una mezcla de normales pudiera ser un modelo plausible. No obstante,

se puede recurrir a mezclas de modelos que sean de uso comun para modelar datos de esta

area. Por ejemplo, una mezcla de modelos Weibul. Las densidades Weibull con dos o tres

parametros estan dadas por las expresiones

f(x;α, β) =α

β

(x

β

)α−1exp

−(x

β

)α, x ≥ 0

f(x;α, β, γ) =α

β

(x− γβ

)α−1exp

−(x− γβ

)α, 0 < γ ≤ x <∞

con α, β y γ parametros de forma, escala y localizacion, respectivamente. El modelo de

mezclas con dos densidades es

f (x;α1, α2, β1, β2, π1) = π1f1 (x;α1, β1) + (1− π1) f2 (x;α2, β2) , o

f (x;α1, α2, β1, β2, γ1, γ2, π1) = π1f1 (x;α1, β1, γ1) + (1− π1) f2 (x;α2, β2, γ2)

133

2 4 6 8

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

mezcla de densidades Weibull

x

Den

sida

d

Mezcla de densidades exponencial

Otra mezcla que puede ser adecuada para datos actuariales es la de distribuciones exponen-

ciales

f(x; θ) =1

θe−

xθ , x ≥ 0

con modelo para dos mezclas

f (x; θ1, θ2, π1) = π1f1 (x; θ1) + (1− π1) f2 (x; θ2)

134

0.0 0.5 1.0 1.5 2.0

01

23

mezcla de densidades Exponencial

x

Den

sida

d

Mezcla de densidades gamma

Otro de los modelos univariados de gran utilidad en aplicaciones actuariales es la distribucion

Gamma. Por lo que podemos utilizar algun modelo de mezclas con estas densidades

f(x;α, θ) =xα−1e−

xθ

θαΓ (α), x ≥ 0

con mezcla para dos densidades

f (x;α1, α2, θ1, θ2, π1) = π1f1 (x;α1, θ1) + (1− π1) f2 (x;α2, θ2)

135

0 200 400 600 800 1000

0.00

000.

0005

0.00

100.

0015

0.00

20mezcla de densidades gamma

x

Den

sida

d

De hecho, cualquier modelo de uso comun para ajustar este tipo de datos, puede utilizarse

dentro de una mezcla para lograr un mejor ajuste a la informacion. Realizaremos algunos

ajustes a datos simulados y reales utilizando algunos paquetes, como mixtools, de R.

136

Teorıa de la credibilidad

Consideremos un riesgo determinado que proveniente de un conjunto de asegurados vigentes

por un periodo determinado. Si este grupo de asegurados es homogeneo en el sentido de que

todos sus miembros tienen la misma probabilidad de realizar una reclamacion, entonces es

razonable aplicar una misma prima a todos ellos. Sin embargo, cuando el grupo no es ho-

mogeneo, o bien, al paso del tiempo aparecen factores de heterogeneidad dentro del mismo,

habra subgrupos de bajo riesgo y otros de alto riesgo. Cobrar una misma prima a todos

resultarıa injusto, y no serıa conveniente para la aseguradora pues, eventualmente, los ase-

gurados de bajo riesgo buscarıan un mejor trato con otra aseguradora. La idea fundamental

es aplicar primas menores a los asegurados de bajo riesgo y primas mayores a los de alto

riesgo, con base en el historial de reclamaciones que cada uno de los asegurados o subgrupos

hayan realizado durante los periodos anteriores. En la teorıa de la credibilidad se estudian

metodos para el calculo de primas a traves de la combinacion de la experiencia individual

(historial de reclamaciones, datos propios) y la experiencia de grupo (datos del mercado,

contratos similares, experiencia propia acumulada, datos colaterales).

Este escenario plantea entonces que, cada caracterıstica a estimarse en la poblacion, depende

de dos fuentes de informacion (o tiene dos fuentes de datos): Los datos propios o datos indi-

viduales y la informacion colateral, dada por los datos del mercado o la experiencia propia

acumulada. Si basamos esta estimacion solo en los datos propios y estos son escasos, en-

tonces su estimacion sera poco confiable (escencialmente podrıa tener una varianza muy

grande). Por otro lado, si esta estimacion se realizara unicamente con la informacion co-

lateral, que, tal vez, sea basta, podrıa ser que no todos estos datos estuvieran totalmente

relacionados con el mismo riesgo, este podrıa haber sufrido modificaciones, por ejemplo, a

traves del tiempo. Entonces, la mejor alternativa para estimar estas caracterısticas, debiera

ser una combinacion de las dos fuentes de informacion. En concreto, si deamos estimar la

caracterıstica α de la poblacion, nuestro estimador debiera ser

Zαi + (1− Z)αC

Con αi el estimador dado por la informacion individual y αC el estimador dado por la

informacion colateral. Con Z ∈ [0, 1] conocido como factor de credibilidad, generalmente

determinado por los datos individuales y colaterales. Si la informacion generada por la expe-

riencia propia es abundante, este factor deberıa ser cercano a uno, y cercano a cero cuando

137

esta informacion sea muy escasa.

Para asignar el valor de Z en condiciones reales, se toman en cuenta

• El volumen de los datos individuales o propios respecto a los datos colaterales, y

• Diferencias entre datos individuales y colaterales.

Credibilidad total o completa

Supongamos que S representa el riesgo para una aseguradora correspondiente a un asegurado

o un conjunto de asegurados con ciertas caracterısticas particulares, con covertura por un pe-

riodo fijo determinado, por ejemplo, un ano. Sean S1, ..., Sm los montos de las reclamaciones

efectuadas por este asegurado o grupo de asegurados durante m periodos consecutivos, y

sea S = (S1, ..., Sm) /m el promedio de las reclamaciones. Nos interesa estudiar el compor-

tamiento de S a lo largo del tiempo para un conjunto de asegurados en particular, pues

deseamos determinar si la prima que se les cobra a cada uno de ellos es la adecuada. Si las

variables S1, ..., Sm son independientes, e identicamente distribuidas y con esperanza finita,

entonces la ley de los grandes numeros garantiza que la media muestral S converge a E (S),

conforme el numero de sumandos crece a infinito.

138

Convergencia de S

m

S

E(S)

Definicion. Sea k ∈ (0, 1) y p ∈ (0, 1) dos valores fijos. Se dice que S tiene credibilidad total

o completa (k, p), si

P(∣∣S − E(S)

∣∣ ≤ kE (S))≥ p

Esta definicion enuncia que S tiene credibilidad completa si dista de E(S), en menos de

kE(S) con probabilidad mayor o igual a p. Observese que la definicion tiene sentido cuando

E(S) distinta de cero. En la practica, obviamente se toman valores de k cercanos a cero y

valores de p cercanos a uno, tıpicamente k = 0.05 y p = 0.9.

Regresando al esquema de la estimacion a traves de las dos fuentes de informacion: datos

individuales e informacion colateral, nuestra estimacion de S, queda como

ZS + (1− Z)E(S)

Notemos que estamos utilizando la esperanza de S como la informacion colateral. Entonces,

una pregunta que surge de manera natural es: de que tamano debe ser la experiencia propia

139

para que la aseguradora pueda eliminar la informacion colateral?. En otras palabras, cual

es el numero de periodos, m, necesarios para que se cumpla el enunciado de la definicion

anterior?

Credibilidad completa bajo normalidad asintotica

Determinemos una condicion sobre este numero de periodos, m, para obtener credibilidad

completa asumiendo que, bajo el teorema central del lımite, S tiene una distribucion aprox-

imadamente normal. Recordemos que

E(S)

= E (S) y V(S)

=V (S)

m

Entonces

P(∣∣S − E(S)

∣∣ ≤ kE(S))

= P

(∣∣S − E(S)∣∣√

V(S)/m≤ kE(S)√

V(S)/m

)

≈ P

(|Z| ≤ kE(S)√

V(S)/m

)

= P

(− kE(S)√

V(S)/m≤ Z ≤ kE(S)√

V(S)/m

)

= Φ

(kE(S)√V(S)/m

)− Φ

(− kE(S)√

V(S)/m

)

= Φ

(kE(S)√V(S)/m

)− Φ

(1− kE(S)√

V(S)/m

)

= 2Φ

(k√mE(S)√V(S)

)− 1

Como esta probabilidad debe ser mayor o igual a p segun la definicion, tenemos que

2Φ

(k√mE(S)√V(S)

)≥ 1 + p

2

140

Lo que queremos es encontrar el valor de m mas pequeno que cumpla esta desigualdad, que

es aquel que cumple con la igualdad en esta ecuacion. Denotemos por zq al cuantil de orden

q de la normal estandar, i.e., Φ(zq) = q. Entonces, el valor mınimo de m para garantizar

credibilidad total o completa es tal que

k√mE(S)√V(S)

≥ z(1+p)/2

y despejando m obtenemos

m ≥z2(1+p)/2V(S)

k2E2(S)

Las cantidades E(S) y V(S) pueden estimarse por medio de la media y varianza muestral,

respectivamente, usando la informacion que se tenga a disposicion al momento de hacer el

analisis. Substituyendo estos valores en la formula se puede conocer una aproximacion del

numero de periodos m de historial para que S tenga credibilidad completa. Observese que

cuando p crece, es decir, cuando se desea tener una mayor confianza en la estimacion de S,

entonces el numero de periodos de observacion m tambien crece. Si ademas queremos que

el parametro k decrezca tambien, es decir, si se pide que la distancia entre S y E(S) tenga

menor amplitud, entonces m crece. En resumen, si requerimos condiciones muy exigentes a

estos parametros, el precio que hay que pagar es un mayor numero de periodos del historial,

de lo contrario, necesitaremos menos periodos.

Ejemplo

Supongamos que N denota la v.a. que representa el numero de recamaciones de un portafo-

lio de seguros, durante determinado periodo. Asumamos como es costumbre que N ∼

Poisson(λ). Supongamos ademas que la variable de monto de reclamacion Xi, sigue una

distribucion Weibull(α, β).

Recordemos que, dado que N es Poisson, entonces el modelo para S es Poisson compuesto.

Con

141

E(S) = E(N)E(Xi) = λβΓ

(1 +

1

α

)y

V (S) = λβ2Γ

(1 +

2

α

)

Encontrar el valor mınimo de m, para tener credibilidad total, si p = 0.9 y k = 0.05. Real-

izando un calculo simple obtenemos

m ≥1.962λβ2Γ

(1 + 2

α

)(0.05)2λ2β2Γ2

(1 + 1

α

)⇒ λm ≥ 1536.64

Γ(1 + 2

α

)Γ2(1 + 1

α

)Observemos que λm representa el total de reclamaciones promedio durante m periodos.

Ejemplo 2

La siguiente tabla corresponde a una muestra de 100 reclamaciones sobre un seguro. Supong-

amos que la tasa media de reclamacion es de 0.015. Calcular el numero mınimo de reclama-

ciones esperadas, ası como el tamano aproximado que debera tener el portafolio de experi-

encia para asignarle credibilidad total con k = 0.05 y p = 0.9

Tabla

Monto de reclamacion Numero de reclamaciones

0− 400 2400− 800 24800− 1200 321200− 1600 211600− 2000 102000− 2400 62400− 2800 32800− 3200 13200− 3600 1

Entonces, recordemos que, en general

E (S) = E (N)E (X) y V (S) = E (N)V (X) + V (N)E2 (X)

142

En este caso, utilizaremos las verisiones empıricas

E (N) = N = 11.11111; V (N) = 135.1111

E (X) = X = 1216; E2 (X) = 1841600

Entonces

E (S) = 11.11111 ∗ 1216 = 13511.11 y

V (S) = 11.11111 ∗ (1841600− 12162) + 135.1111 ∗ 1841600 = 252853312

m ≥ 1536.64252853312

13511.112= 2128.427

143

Credibilidad parcial

En muchas ocaciones reales, la experiencia acumulada no es tan grande como para otorgarle

credibilidad total o completa, solamente creibilidad parcial, (Z < 1). Entonces, necesitamos

determinar que valor habra que asignarle a Z, para que nuestro estimador S cumpla las

mismas condiciones anteriores. Por lo que, en la combinacion lineal convexa que determi-

namos para estimar S, ZS + (1− Z). Procediendo de manera semejante al desarrollo para

creibilidad total, tenemos que

P(∣∣Z (S − E(S)

)≤ kE(S)

∣∣) ≥ p

que podemos reescribir como

P(∣∣∣∣(S − E(S)

)≤ k

ZE(S)

∣∣∣∣) ≥ p

condicion similar a la de credibilidad completa, cambiando k, por k/Z. Es decir, la credibili-

dad parcial (k, p), para ZS+(1−Z)E(S), es equivalente a la credibilidad completa (p, k/Z),

para S.

Credibilidad parcial bajo normalidad asintotica

De manera totalmente analoga al desarrollo para credibilidad completa, bajo la hipotesis de

normalidad asintotica para S y para los valores de k y p mencionados anteriormente, se tiene

la aproximacion

m ≥Z2z2(1+p)/2V (S)

k2E2 (S)

de donde obtenemos

Z =kE (S)

√m

z(1+p)/2√

V (S)

Este valor de Z excede el valor de uno para valores suficientemente grandes de m, por lo

tanto se define el factor de credibilidad como

144

Z = min

kE (S)

√m

z(1+p)/2√V (S)

, 1

Ejemplo. Retomemando nuestro primer ejemplo

Donde N ∼ Poisson(λ) y Xi, sigue una distribucion Weibull(α, β), con k=0.05 y p=0.9.

Calculemos la condicion de crdibilidad parcial para ZS+(1−Z)E(S). En este caso tenemos

que

⇒ λm ≥ 1536.64Γ(1 + 2

α

)Γ2(1 + 1

α

)Z2

Si tomamos la igualda y despejamos Z, obtenemos

Z =

√λmΓ

(1 + 1

α

)39.2

√Γ(1 + 2

α

)Entonces, la combinacion lineal queda como

√λmΓ

(1 + 1

α

)39.2

√Γ(1 + 2

α

) S +

1−√λmΓ

(1 + 1

α

)39.2

√Γ(1 + 2

α

)E (S)

con E (S) es el valor esperado teorico de S y S es la experiencia observada.

145

Creibilidad Bayesiana

La estadıstica Bayesiana consituye una manera natural de incorporar el historial de reclama-

ciones (informacion) de un grupo de asegurados en el calculo de las primas. Una aseguradora

que ha tenido mucha experiencia realizando este calculo, tendra una estimacion mas precisa

de estas primas; no obstante, solo sera una estimacion que debera actualizar tan pronto

tenga mas informacion a mano. Por el contrario, una nueva aseguradora en el mercado,

tendra poca o nula informacion propia en la que basar sus estimaciones, por lo que dicha

estimacion sera muy incierta y, tal vez, este basada en la informacion del mercado o de juicios

subjetivos de especialistas del area, por lo que le resultara de suma importancia actualizarla

en cuanto empiece a acumular informacion propia.

Enfoque Bayesiano

En la estadıstica tradicional, enfoque clasico, uno de los problemas inferenciales mas im-

portantes es la estimacion del parametro, θ, de una distribucion de probabilidad, f(x; θ).

Para realizar dicha estimacion seleccionamos una muestra aleatoria de esta distribucion y se

tienen distintos metodos para estimar θ, considerando siempre que este parametro tiene un

valor desconocido y fijo. En el enfoque Bayesiano, θ, se trata como una variable aleatoria

para la que se supone una distribucion de probabilidad, p(θ), llamada distribucion inicial o

distribucion apriori. Esta distribucion refleja la informacion subjetiva o cuantitativa que el

observador pueda tener sobre este parametro, θ, antes de observar la muestra.

Actualizacion de la informacion a traves del teorema de Bayes

La forma en la que se actualiza la informacion inicial sobre nuestro parametros de interes,

θ, mediante la informacion contenida en la muestra, p(x|θ) = L(θ;X) (la verosimilitud), es

a traves del teorema de Bayes.

Teorema de Bayes

Dados dos eventos A y B tales que P(B) > 0, la probabilidad condicional de A dado B,

P(A|B), se define como

P(A|B) =P(B ∩ A)

P(B)=

P(B|A)P(A)

P(B)

146

Teorema de Bayes

Si Ai : i = 1, 2, ...,M es un conjunto exhaustivo de eventos mutuamente excluyentes, en-

tonces

P(Ai|B) =P(B|Ai)P(Ai)

M∑j=1

P(B|Aj)P(Aj)

La forma esquematica de actualizar esta informacion a traves del teorema de Bayes es la

siguiente

• θ debe tener una distribucion de probabilidad, p(θ), que refleje nuestro conocimiento inicial

acerca de su valor.

• La informacion sobre θ que contiene la muestra aleatoria seleccionada, esta resumida en la

verosimilitud: p(x|θ) = L(θ;X)

Por lo tanto, nuestro conocimiento acerca del valor de θ queda descrito a traves de su dis-

tribucion final

p(θ|X)

El Teorema de Bayes nos dice como encontrarla:

p(θ|X) =p(x|θ)p(θ)∫p(x|θ)p(θ)dθ

Este proceso se conoce como el proceso de actualizacion de la informacion sobre θ, y es la

manera de combinar las dos fuentes de informacion que tenemos: La inicial, dada a traves

de p(θ), y la de la muestra, dada por medio de la verosimilitud: p(x|θ), para obtener la

distribucion final: p(θ|X), que contiene la suma de estas dos fuentes de informacion.

Observese que el denominador, p(x) =

∫p(x|θ)p(θ)dθ, no depende de θ, por lo que es comun

escribir esta distribucion final como

147

p(θ|x) ∝ p(x|θ)p(θ)

En la practica, el calculo de la distribucion final puede ser un asunto complicado, especial-

mente si la dimension del parametro es grande.

Sin embargo, para ciertas combinaciones de distribuciones iniciales y verosimilitudes es posi-

ble simplificar el analisis.

En otros casos se requieren aproximaciones analıticas y/o tecnicas computacionales relativa-

mente sofisticadas.

Familias conjugadas

Comentamos en uno de los puntos anteriores, que existen ciertas combinaciones de distribu-

ciones iniciales y verosimilitudes, que simplifican el analisis Bayesiano, esencialmente, porque

el modelo de la distribucion final de θ, pertenece a la misma familia que el de la inicial.

Definicion. Sea P = p(x|θ) : θ ∈ Θ una familia parametrica. Una clase (o coleccion) de

distribuciones de probabilidad F es una familia conjugada para P si para toda p(x|θ) ∈P

y p(θ) ∈ F se tiene que p(θ|x) ∈ F

Algunos modelos parametricos univariados con sus respectivas familias conjugadas:

Familia parametrica Familia Conjugada

Bernoulli(x|θ) Beta(θ|α, β)Poisson(x|λ) Gamma(λ|α, β)

Geometrica(x|θ) Beta(θ|α, β)Exponencial(x|λ) Gamma(λ|α, β)Uniforme(x|0, θ) Pareto(λ|α, β)Normal(x|µ) Normal(µ|µ0, λ0)Normal(x|λ) Gamma(λ|α, β)Normal(x|µ, λ) Normal −Gamma(µ, λ|µ0, λ0, α, β)

148

Ejemplo. Consideremos la familia parametrica P = Poisson(x|λ) : λ ∈ R+. Si utilizamos

como distribucion inicial p(λ) ∈ F = Gamma(λ|α, β) : α, β ∈ R+. Entonces, si se tiene

una muestra aleatoria x = (x1, ..., xn), la distribucion final es

p(λ|X) = Gamma(λ|α + r, n+ β)

con r =n∑i=1

xi.

Dem. Solo demostraremos que el kernel de la distribucion final, pertenece a la distribucion

Gamma(λ|α + r, n+ β).

Sabemos, por Bayes, que

p(λ|X) =p(x|λ)p(λ)∫p(x|λ)p(λ)dλ

con

p(x|λ) =n∏i=1

λxie−λ

xi!∝ λ

∑ni=1 xie−nλ y

p(λ) =βαλα−1e−βλ

Γ (α), por lo que

p(λ|X) ∝ λ∑ni=1 xie−nλλα−1e−βλ = λα+

∑ni=1 xi−1e−λ(β+n) ∝ Gamma

(α +

n∑i=1

xi, β + n

)Aplicacion a la teorıa de credibilidad

Por lo general, la tasa de frecuencia de reclamacion, λ, de un seguro presenta incertidumbre,

por lo que se puede suponer que sus valores estan dados mediante una distribucion de prob-

abilidades. El rango de definicion de esta tasa es λ ∈ (0,∞), por lo que una distribucion

adecuada para ella puede ser la Gamma(α, β). Consideremos tambien que el numero de

reclamaciones sigue una distribucion Poisson(λ) y tenemos m polizas o periodos de obser-

vacion independientes. Entonces la distribucion final de la tasa de frecuencia de reclamacion

es una Gamma con las caracterısticas anteriores. Esta distribucion final tiene media

149

α +∑m

i=1 xiβ +m

=α +mS

β +m

=m

β +mS +

β

β +m

α

β

= ZS + (1− Z)α

β

con Z =m

m+ βel factor de credibilidad. Este factor crece de forma monotona a uno cuando

m tiende a infinito, dando, como es logico, cada vez mas credibilidad a la media muestral S,

es decir, a la informacion individual o de la Cıa., y menor credibilidad a la media teorica o

poblacional, que representa la informacion colateral. Ademas si m tiende a infinito la media

de la distribucion final o aposteriori converge a la media muestral lımite dada por el historial

de reclamaciones; y la varianza de esta tasa, λ, que es

α +mS

(m+ β)2

converge a cero, lo cual indica que la distribucion final se concentra cada vez mas alrededor

de su media.

Ejemplo: Estimacion del fraude en un tipo de poliza

Un actuario desea estimar la proporcion, θ, de fraude en un determinado tipo de poliza.

Para esto, se realizan inspecciones aleatorias a las reclamaciones realizadas. Se sabe que el

fraude en el sector es del 4% con una desviacion estandard del 2%. Se inspeccionan un total

de 240 polizas, y se determina que 22 de ellas son fraudulentas. El actuario quiere combinar

estas dos fuentes de informacion (Sector y Cıa.) para actualizar esta proporcion de freude.

Sea X v.a. que representa el numero de polizas fraudulentas en un total de n inspecciones.

Es claro que X tiene una distribucion Binomial(n, θ).

f (x|θ) =

(n

x

)θx(1− θ)n−x, x = 0, 1, ..., n; θ ∈ (0, 1)

150

Bajo el enfoque Bayesiano, debemos asignar una distribucion inicial a θ. El hecho de que

su espacio parametral sea (0, 1), nos obliga a buscar una distribucion que tenga flexibili-

dad (distintas formas posibles) en este intervalo; una eleccion que parece conveniente, es la

distribucion beta.

0.0 0.5 1.0 1.5 2.0

02

46

810

Diversas formas de la distribución Beta

x

Bet

a

a1= 0.5 , a2= 3a1= 1 , a2= 3a1= 1.5 , a2= 3a1= 3 , a2= 3a1= 5 , a2= 3a1= 7 , a2= 3

0.0 0.5 1.0 1.5 2.0

02

46

8

Diversas formas de la distribución Beta

x

Bet

a

a1= 3 , a2= 1a1= 3 , a2= 0.8a1= 3 , a2= 0.6a1= 3 , a2= 0.4a1= 3 , a2= 0.2a1= 3 , a2= 0.1

cuya funcion de densidad es

p(θ;α, β) =θα−1(1− θ)β−1

Beta(α, β); θ ∈ (0, 1), α > 0, β > 0

con α y β parametros de la distribucion inicial, conocidos como hiperparametros, que se

pueden estimar a partir de la informacion inicial sobre θ, cuya distribucion inicial supusimos

Beta(α, θ), de la siguiente forma

E (θ) =α

α + β= 0.04, y

V (θ) =αβ

(α + β + 1)(α + β)2= 0.022

151

cuya solucion es: α = 0.02386583 y β = 0.000009779513.

Para encontrar la distribucion final de θ dados los datos observados, utilizaremos el teorema

de Bayes para distribuciones. Sabemos que, en este caso, la distribucion final tambien debe

ser una Beta, porque es conjugada para la Bernoulli. Por lo que solo resta ver como se

actualizan los parametros de la Beta inicial (Modelo Beta-Binomial). Entonces

p(θ|X) =f(x|θ)Beta(θ|α, β)∫ 1

0

f(x|θ)Beta(θ|α, β)dθ

=

(n

x

)θx(1− θ)n−x θ

α−1(1− θ)β−1

Beta (α, β)∫ 1

0

(n

x

)θx(1− θ)n−x θ

α−1(1− θ)β−1

Beta (α, β)dθ

=θx+α−1(1− θ)n−x+β−1

Beta(x+ α, n− x+ β)

Por lo tanto

p(θ|x) = Beta(x+ α, n− x+ β)

Con x el valor observado de la Binomial. Entonces, la media de la distribucion final, que es

la proporcion de fraude actualizada, es

E (θ|x) =α + x

α + β + n

=n

α + β + n

x

n+

α + β

α + β + n

α

α + β

=n

α + β + nθ +

α + β

α + β + nE(θ)

que representa la formula de credibilidad, donde se combinan la experiencia del sector (colec-

tivo) y la informacion de la Cıa. (individual). Con el factor de credibilidad dado por

152

Z =n

α + β + n

Finalmente, la proporcion de fraude actualizada es 0.09175698 y factor de credibilidad

Z = 0.9999005. Para construir un intervalo de probabilidad sobre esta proporcion. Debemos

encontrar los lımites (l, u), sobre la distribucion final de θ, tal que

P (l ≤ θ|x ≤ u) = 1− q

con 0 < q < 1, la probabilidad de cobertura deseada.

Calculo Bayesiano de primas de seguros

El uso de las distribuciones iniciales que tienen un caracter evidentemente subjetivo, resulta

de utilidad en el mercado de seguros, sobre todo si se tiene en cuenta que cuando se quiere

tarifar un riesgo nuevo no se dispone de informacion para ello.

La vision Bayesiana se incorporo rapidamente a la disciplina actuarial, demostrando que

algunas primas que se obtienen a traves de la metodologıa Bayesiana pueden escribirse como

formulas de credibilidad.

En estos terminos actuariales, la cuestion basica de credibilidad es determinar una prima

establecida como una combinacion lineal convexa entre la experiencia particular de un ase-

gurado y la experiencia del colectivo, esto es, toda la cartera. Es decir

Pj = ZP + (1− Z)P0

Con

• Pj prima a aplicar a los asegurados por el riesgo j.

• P0 prima a aplicar a un colectivo al que pertenece el asegurado j.

• P Prima calculada con base en la experiencia del asegurado j.

• Z Factor de credibilidad. Que debe verificar las condiciones: limm→∞Z = 1, con m el

numero de sujetos expuestos al riesgo j o el periodo de observacion de la poliza j. Entonces,

si Z = 1 la experiencia del asegurador recibe credibilidad total o del 100%, mientras que si

153

Z = 0, Pj = P0 y la prima del asegurado j coincide con la del colectivo a la que pertenece

dicha poliza, o la experiencia del colectivo recibe credibilidad total o del 100%.

Entonces, desde el punto de vista Bayesiano, esta formula de credibilidad puede interpretarse

como: Podemos considerar P0 como la informacion inicial o a priori. A P como la nueva

informacion que se obtiene mediante la observacion de la siniestralidad del riesgo j (los datos

recabados; la informacion recabada) y Pj la actualizacion del calculo de la poliza (prima a

posteriori), resultado de combinar la informacion inicial con la informacion recabada. Por lo

tanto

Prima(a posteriori) = (1− Z) ∗ Prima a priori + Z ∗ Experiencia dada por los datos

De esta manera, la teorıa de la credibilidad Bayesiana, sigue un esquema donde la infor-

macion a priori sobre el calculo de las primas, se actualiza con la informacion dada por

la observacion del siniestro (muestra), dando como resultado la actualizacion de la prima,

mediante el calculo de la prima a posteriori.

154

Procesos estocasticos

En este apartado haremos una presentacion breve de diversos aspectos relacionados a los

procesos estocasticos. Se definiran algunos conceptos y propiedades de ellos, ademas de pro-

porcionar ejemplos particulares de procesos estocasticos. Estas herramientas seran de gran

utilidad para el estudio de la teorıa de la ruina y de reservas, que son nuestros objetivos

finales del curso.

Proceso estocastico

Def. Un proceso estocastico es una coleccion Xtt∈T de variables aleatorias indexadas por

un conjunto, T, y definidas en algun espacio de probabilidad (Ω,F ,P). Consideramos al

conjunto de ındices, T, como un parametro temporal, por ejemplo: 0, 1, ..., n, N, [0, t]

o [0,∞). Interpretamos un proceso estocastico como la evolucion en el tiempo de algun

fenomeno cuyo comportamiento lo rige el azar (es aleatorio). Un ejemplo dentro del area

actuarial esta determinado por la evolucion en el tiempo, de la reserva de una companıa de

seguros. En finanzas, por ejemplo, Xt puede representar el precio de una accion bursatil

al tiempo, t. En un contexto mas trivial, la cantidad de soles (aguilas) acumuladas en

una sucesion de lanzamientos de una moneda (“volados”) tambien constituye un proceso

estocastico.

En el segundo ejemplo, se puede indexar al proceso por algun intervalo de numeros naturales,

en cuyo caso hablaremos de un proceso estocastico a tiempo discreto. Ademas, dicho proceso

toma valores en los naturales, por lo que tambien se trata de un proceso con espacio de esta-

dos discreto. En el primer caso, se puede pensar en un modelo indexado por un subintervalo

de [0,∞) y hablaremos de un proceso estocastico a tiempo continuo. Ademas, en principio,

el valor de la reserva podrıa ser cualquier real no-negativo y por lo tanto hablamos de un

proceso con espacio de estados continuo.

Ejemplos

Caminatas aleatorias y el problema de la ruina. Modelemos la siguiente situacion: Tenemos

un capital de 50 pesos al tiempo cero y cada instante de tiempo apostamos un peso en un

“volado”, ganando si cae aguila. ¿Como podemos modelar y estudiar la evolucion de nuestro

capital a traves del tiempo?. Un particular interes es la variable aleatoria que nos indica el

155

instante en que nos arruinemos por primera vez, misma que a priori podrıa ser infinita si

jamas nos ocurre este evento (“sı, como no”).

Entonces, nuestro modelo se construye de la siguiente manera. Sean U1, U2, ... variables

aleatorias uniformes en (0, 1), independientes. Sea 1Ui≤1/2, la variable aleatoria indicadora

que denota si el resultado del i-esimo lanzamiento fue aguila (Ui = 1) y, por tanto, la variable

aleatoria 21Ui≤1/2 − 1, toma los valores 1 si cae la moneda aguila y -1 si cae la moneda sol.

Con estas consideraciones, podemos definir nuestro modelo como

X0 = 50, y Xn+1 = Xn + 21Un+1≤1/2 − 1

0 500 1000 1500 2000

020

4060

80

Trayectoria del proceso de ruina del jugador

t

Xn

Ejemplo 2 Queriendo arruinarse pronto. Modifiquemos el proceso anterior de la siguiente

manera. Capital inicial $50. A cada instante de tiempo apostamos en un “volado” o la

mitad de nuestro capital si tenemos mas de 10 pesos o 2 pesos si este es menor o igual a 10,

ganando si cae aguila. En este caso nuestro modelo es

156

X0 = 50, y Xn+1 = Xn +(21Un+1≤1/2 − 1

)⌊Xn

2

⌋si Xn > 10

2 si Xn ≤ 10

0 5 10 15 20 25 30

010

2030

4050

Trayectoria del proceso modificado de ruina del jugador

t

Xn

Ejemplo 3. Tiempos de espera. En este caso lo que deseamos modelar es el proceso que

generan los clientes que van llegando en tiempos aleatorios, por ejemplo, a una fila unica del

banco, que requieren un servicio cuyo tiempo de atencion tambien es una variable aleatoria.

Lo que deseamos es al caracterizar este proceso es determinar ¿cuanto tiempo debe esperar

un cliente que llega al momento t, para salir del banco?.

El modelo usual para esta situacion asume que los tiempos sucesivos entre los arribos de los

clientes, son variables aleatorias exponenciales con parametro λi. Ademas, se puede suponer

que los tiempos de servicio son variables aleatorias independientes con distribucion comun

exponencial, de tasa λs. Se supone que todas las variables involucradas son independientes.

Entonces, la construccion del modelo es como sigue

Sean S1, S2, ... variables exponenciales independientes de parametro λi y ξ1, ξ2, ... variables

157

exponenciales independientes de parametro λs. Con

T0, Tn+1 = Tn + Sn+1, Nt =∞∑n=1

1Tn≤t, R0, Rn+1 = Rn + ξn+1

Definimos los procesos

Xt = RNt − t y Qt = Xt −mins≤t

Xs

Por lo tanto, Qt representa el tiempo de servicio necesario para atender a los clientes que se

encuentran presentes en el banco al tiempo, t, que es nuestro proceso a estudiar.

0 100 200 300 400

010

2030

4050

Trayectoria del proceso de tiempos de espera con tasas iguales de llegada y servicio

t

Q(t)

158

Cadenas de Markov a tiempo discreto

Def. Una cadena de Markov con matriz de transicion P y distribucion inicial π, es un pro-

ceso estocastico Xnn∈N con valores en el espacio de estados, E, tal que si x0, x1, ..., xn ∈ E,

entonces

P (X0 = x0, ..., Xn = xn) = πx0Px0,x1 · · ·Pxn−1,xn

Propiedad de Markov. Sea X una cadena de Markov con matriz de transicion P y distribucion

inicia π. Si P (X0 = x0, ..., Xn = xn) > 0, entonces

P (Xn+1 = xn+1|X0 = x0, ..., Xn = xn) = P (Xn+1 = xn+1|Xn = xn)

Que enuncia que la evolucion futura de la cadena solo depende de su pasado a traves del

presente. Enunciado de otra forma

Propiedad de Markov. Un proceso estocastico a tiempo discreto y con espacio de estados

discreto es Markoviano si y solo si, la probabilidad condicional de estar en el estado Xt+1

dados los estados anteriores X0, X1, ..., Xn, solo depende del estado mas reciente Xn.

P (Xn+1|X0, X1, ..., Xn) = P (Xn+1|Xn)

Ejemplo 1 : Caminata aleatoria simple. La caminata aleatoria simple es una cadena de

Markov cuyo espacio de estados es Z y es tal que Pn,n+1 = 1 − Pn,n−1 con p ∈ (0, 1). Este

ejemplo ya lo vimos anteriormente. La grafica de una trayectoria del proceso obtenidad a

traves de simulacion es

159

0 20 40 60 80 100

05

1015

Caminata aleatoria simple

t

Xt

Algunas caracterısticas relevantes de una cadena de Markov.

• Si es posible ir a cualquier estado de la cadena de Markov en uno o mas pasos, entonces la

cadena es irreducible.

• Si estando en algun estado, se regresa a el solo en intervalos regulares, la cadena se llama

periodica, de lo contrario se denomina aperiodica.

• Supongamos que podemos encontrar un vector de probabilidades w tal que wP = w,

entonces se dice que w es la distribucion estacionaria de la cadena.

• Equivalentemente, una cadena es estacionaria si existe una funcion de distribucion de

probabilidad f tal que si Xt ∼ f , entonces, Xt+1 ∼ f . Por lo tanto, formalmente, el kernel

y la funcion de distribucion estacionaria cumplen la ecuacion

∫K(x, y)f(x) = f(y)

• Si una cadena de Markov es irreducible y aperiodica, entonces tiene una unica distribucion

160

estacionaria.

• En el caso de que la cadena sea ademas recurrente, la distribucion estacionaria es tambien

la distribucion lımite, en el sentido de que la distribucion lımite de Xt es f casi para cualquier

valor inicial X0. Esta propiedad tambien es conocida como ergodicidad, y obviamente tiene

una gran consecuencia desde el punto de vista de la simulacion, ya que si un kernel dado,

K, produce una cadena de Markov ergodica con distribucion estacionaria f, generando una

cadena de valores de este kernel, eventualmente produciremos simulaciones de f. En partic-

ular, para funciones integrables h, el promedio

1

T

T∑t=1

h(Xt)→ Ef [h(X)]

lo significa que la ley de los grandes numeros valida para los metodos Monte Carlo, puede

aplicarse en el contexto de MCMC. (Teorema ergodico).

Ejemplo: Un dıa de trabajo.

Veamos un ejemplo simple que genera una cadena de Markov a partir de una matriz de

transicion.

• Cada dıa me levanto e intento hacer la mayor cantidad de mi trabajo pendiente.

• Enciendo la computadora y me pongo a trabajar.

• Es bastante facil que me distraiga del trabajo. Despues de cada minuto de trabajo, tengo

solo una probabilidad de 0.4 de continuar trabajando al minuto siguiente. Con probabilidad

0.6 inicio una navegacion por INTERNET.

• Navegar en la red es bastante adictivo. Despues de navegar un minuto, mi probabilidad

de regresar a trabajar es tan solo de 0.1. Con probabilidad 0.6, sigo navegando en la red.

Con probabilidad 0.3 reviso mi correo electronico.

• Con probabilidad 0.5 regreso a mi trabajo. Con la misma probabilidad, continuo revisando

mi correo electronico.

161

Mi matriz de transicion

trabajo internet e−mail

trabajo 0.4 0.6 0

internet 0.1 0.6 0.3

e−mail 0.5 0 0.5

Es una matriz de transicion de una Cadena de Markov. Todas sus entradas son no negati-

vas y sus renglones suman uno, y cumplira todas las condiciones de aperiodica, irreducible,

recurrente, etc.?

162

El proceso Poisson

Dada la dependencia del modelo de Camer-Lundberg (que enunciaremos posteriormente) del

proceso Poisson, lo definiremos en seguida.

Def. 1 : Un proceso estocastico, X(t), t ≥ 0, a tiempo continuo, se dice que es de incre-

mentos independientes si para cada t0 < t1 < · · · < tn, con t0, t1, ..., tn ∈ T se tiene que

X(t1)−X(t0), X(t2)−X(t1), ..., X(tn)−X(tn−1)

son variables aleatorias independientes.

Def. 2 : Un proceso estocastico, X(t), t ≥ 0, a tiempo continuo, es de incrementos esta-

cionarios si la distribucion, dado t ∈ T , de

X(t+ s)−X(t)

es la misma ∀s ∈ T .

• En un proceso con incrementos estacionarios, cambios en el proceso de igual tamano son

iguales en distribucion.

Def. 3 : Un proceso estocastico a tiempo continuo, N(t), t ≥ 0, se dice puntual o de con-

teo, si N(t) representa el numero de veces que ocurre un suceso hasta el instante de tiempo, t.

• En particular

• N(t) ∈ N, ∀ t ∈ T

• N(s) ≤ N(t), si s < t (Los incrementos son no negativos)

• Por lo tanto, un proceso de conteo es de incrementos independientes si el numero de sucesos

en intervalos de tiempo que no se traslapan son variables aleatorias independientes.

• Y es de incrementos estacionarios, si el numero de sucesos en un intervalo de tiempo es el

mismo en intervalos de igual longitud.

163

• Un uso muy frecuente de la distribucion de Poisson surge en situaciones en las que los

eventos ocurren a lo largo del tiempo, por ejemplo: ocurrencia de terremotos, personas que

ingresan a un banco, llegadas a un servidor, emisiones de partıculas por una fuente radiac-

tiva, etc.

Def. 4 : Un proceso de conteo N(t), t ≥ 0, se dice de Poisson (homogeneo), con tasa de

intesidad, λ, si

• N(0) = 0

• Es de incrementos independientes

•

P (N(t+ s)−N(s) = n) =(λt)n e−λt

n!, ∀n ∈ N, ∀s, t > 0

• De la definicion es claro que el proceso es de incrementos estacionarios, y los incremen-

tos siguen una distribucion Poisson de parametro λt para intervalos de tiempo de longitud, t.

• El numero promedio de eventos hasta el instante, t, es

E [N(t)] = E [N(t+ 0)−N(0)] = λt

• V [N(t)] = λt

• Para cualquier intervalo de longitud, t, se tiene

E [N(s+ t)−N(s)] = E [N(t)] = λt

164

0 20 40 60 80

05

1015

2025

30Trayectoria: Proceso Poisson

t

N(t

)

165

Proceso de Poisson no homogeneo (o no estacionario). En muchas situaciones es mas realista

suponer que hay mas incidencias a ciertas horas (o en ciertos intervalos) que a otras. Para

modelar esta situacion, es conveniente la siguiente generalizacion del Proceso Poisson.

Def. 5 : Decimos que N(t), t ≥ 0, es un Proceso Poisson no homogeneo, con tasa de in-

tesidad, λt, si

• N(0) = 0

• Es de incrementos independientes

•

P (N(t+ s)−N(s) = n) =

∫ t+s

s

λ(x)dx, ∀s ≥ 0, t > 0

• En otras palabras, para cada s ≥ 0 y t > 0 se tiene que N(t + s) − N(s) es una variable

aleatoria Poisson con media

m(t+ s)−m(t) =

∫ t+s

s

λ(x)dx

• N(t) tiene distribucion Poisson con esperanza

m(t) =

∫ t

0

λ(x)dx

• Si λt = λ (constante), entonces N(t + s) − N(s) es una variable aleatoria Poisson con

media λt.

166

Esperanza Condicional

Antes de dar una definicion formal sobre la esperanza condicional, hagamos una introduccion

simple de este concepto.

Supongamos que X es una v.a. que denota el resultado de un experimento aleatorio.

• Si no tenemos informacion sobre el resultado del experimento, entonces, nuestra mejor

conjetura (apuesta) sobre el valor de X sera, E (X), la esperanza o valor esperado de X.

• Si conocemos el resultado del experimento, entonces conocemos el valor exacto de X.

• Frecuentemente conocemos el valor de otra variable aleatoria Y que esta relacionada con

X. En este caso, la mejor prediccion del valor de X sera la esperanza condicional E[X|Y ].

La esperanza condicional, E[X|Y ], es una nueva variable aleatoria de la forma, g(Y ), que

aproxima X, usando la informacion sobre v.a. Y.

Ejemplo

Consideremos el experimento de lanzar un dado dos veces. Sean Y y Z los puntajes que

aparecen en el primero y segundo lanzamiento, respectivamente. Sabemos que

E [Y ] =6∑y=1

xP [Y = y] = 3.5, y E [Z] =6∑z=1

zP [Z = z] = 3.5

y, por independencia entre Y y Z,

E [Z|Y ] = E [Z] = 3.5

En este caso, la funcion g es constante como funcion de y, lo que implica que conocer Y no

sirve para predecir Z o no aporta informacion sobre Z ).

• Ahora, consideremos la v.a. X = Y + Z . Es claro que X y Y son, ahora, variables

aleatorias dependientes. Entonces,

E [X|Y ] = E [Y + Z|Y ] = E [Y |Y ] + E [Z|Y ] = Y + E [Z] = Y + 3.5

167

Entonces, E [X|Y ] = Y + 3.5 = g(Y ), que es una v.a.

Ostro

Ahora supongamos que lanzamos un dado hasta obtener un seis. Sea Y el numero total de

lanzamientos del dado, y X el numero de unos observado. Calcular E [Y |X].

El evento Y = y − 1 significa que se realizaron y − 1 lanzamientos en los que no se observo

un seis, y que el seis se observo en el lanzamiento y. Entonces, dado este evento, X tiene

una distribucion Binomial(y − 1, 15). Entonces

E [X|Y ] = np =1

5(y − 1)

que es una funcion de Y .

168

Las siguientes definiciones y resultados requieren de un espacio de probabilidad. Entonces

Sea (Ω,A ,P) un espacio de probabilidad

Definicion 1 Sea X una variable aleatoria con esperanza 2 finita, y sea F una sub σ-

algebra de A . La esperanza condicional de X dado F , E[X|F ] , es una variable aleatoria

que cumple:

• Es F -medible

• Tiene Esperanza finita

•∫BXdP =

∫BE[X|F ]dP ∀ B ∈ F

Usando el teorema de Radon-Nykodim puede desmostrarse que E[X|F ] existe y es unica

casi seguramente.

Proposicion 1 Sean X y Y variables aleatorias con esperanza finita, F una σ-algebra y c

una constante, entonces

1. E[X|F ] = E[X] si X es independiente a F

2. Si X ≥ 0⇒ E[X|F ] ≥ 0

3. E[cX + Y |F ] = cE[X|F ] + E[Y |F ]

4. Si X ≥ Y ⇒ E[X|F ] ≥ E[Y |F ]

5. E[E[X|F ]] = E[X]

6. Si X es F -medible ⇒ E[X|F ] = X c.s.

7. Si XY es integrable3 y X es F -medible ⇒ E[XY |F ] = XE[Y |F ]

8. Si F1 ⊂ F2 ⇒ E[E(X|F2)|F1] = E[X|F1]

2E[X] :=∫

ΩXdP

3Una v.a. X es integrable si E[|X|] <∞

169

Y como definimos la esperanza condicional dada una variable aleatoria, como las de la in-

troduccion, es decir, E[X|Y ]?

Definicion 2 Sea (Ω,A ,P) un espacio de probabilidad, X ∈ (Ω,A ,P), integrable, y sea

Y ∈ (Ω,A ,P) otra variable aleatoria. Se define la esperanza condicional de X dado Y, como

E [X|σ (Y )]

Mas ejemplos: Jaula con tres puertas

Un prisionero esta encarcelado en una jaula que tiene tres puertas.

• La puerta 1 lo lleva inmediatamente a la libertad.

• La puerta 2 lo conduce a un tunel que lo regresa a la misma jaula despues de un dıa de

trayecto.

• La puerta 3 lo lleva, tambien, a un tunel que lo regresa a la misma jaula despues de tres

dıas de trayecto.

• La probabilidad de escoger cualquiera de las puerta es la misma: p = 13.

• Suponemos que si regresa a la jaula, inicia el mismo proceso de nuevo como si hubiera

olvidado sus experiencias pasadas con la eleccion de las puertas. Entonces

¿Cual es el valor esperado del tiempo que tardara el prisionero, hasta que este

en libertad?

Sol.

Sea X la v.a. que determina el tiempo hasta que el prisionero consiga la libertad, y Y la

v.a. que determina el numero de la puerta elegida inicialmente. Observamos que

• E [X|Y = 1] = 0

• E [X|Y = 2] = 1 + E [X]

• E [X|Y = 3] = 3 + E [X]

170

Ahora, utilizando la propiedad 5 de la esperanza condicional, tenemos

E [X] = E [E [X|Y ]]

=1

3E [X|Y = 1] +

1

3E [X|Y = 3] +

1

3E [X|Y = 3]

=1

3(0 + 1 + E [X] + 3 + E [X])

=1

3(4 + 2E [X])

Por lo tanto: E [X] = 4 dıas

Ejemplo 2

Sean X1, X2, ..., Xn variables aleatorias i.i.d. con esperanza comun µ. Definimos la v.a.

Sn = X1 +X2 + · · ·+Xn

Para m < n tenemos

E [Sn|X1 +X2 + · · ·+Xm] = E [X1 +X2 + · · ·+Xm|X1 +X2 + · · ·+Xm] +

E [X1 +X2 + · · ·+Xm|Xm+1 +Xm+2 + · · ·+Xn]

= X1 +X2 + · · ·+Xm + E [Xm+1 +Xm+2 + · · ·+Xn]

= Sm + (n−m)µ

Definicion 3 Una filtracion es una coleccion de σ-algebras Fnn≥1 tal que Fm ⊆ Fn ∀

m ≤ n

En particular, la filtracion natural o canonica de un proceso Xn es aquella sucesion de

σ-algebras definidas por Fn = σX1, X2, ..., Xn

“Fn contiene la informacion del proceso Xii≥1 hasta el tiempo n ”

Definicion 4 Se dice que un proceso Xn es adaptado a la filtracion Fn si Xn es Fn-

medible

171

Definicion 5 Una variable aleatoria τ con valores en N ∪ ∞ es un tiempo de paro con

respecto a la filtracion Fnn≥1 si τ ≤ n ∈ Fn ∀ n ∈ N

Equivalentemente τ = n ∈ Fn

Que se interpreta como: La ocurrencia del evento “paramos el proceso al tiempo τ = n”,

puede determinarse conociendo solo los valores de X0, X1, ..., Xn, i.e., no se requiere conocer

los valores Xn+1, Xn+2, ....

Ejemplo

Supongamos que Xn es una cadena de Markov que representa nuestro capital en dolares,

despues de haber jugado n veces. Podemos pensar en ganar apostando en un casino, y parar

de apostar (jugar) cuando alcancemos una suma deseada, digamos, m dolares.

El tiempo aleatorio, τ , en el que por primera vez acumulamos m dolares es un tiempo de paro:

τ = n = X0 6= m,X1 6= m, ..., Xn−1 6= m,Xn = m

172

Martingalas

Definicion 6 Un proceso estocastico Xn es una Fn-martingala si

1. Xn es integrable ∀ n ≥ 1

2. Xn esta adaptado a Fn

3. E[Xn+1|Fn] = Xn ∀ n ≥ 1

Implicaciones:

1. E[Xm|Fn] = Xn ∀ m ≥ n

2. E[E(Xm|Fn)|Ω, ∅] = E[Xm|Ω, ∅] = E[Xm]

⇒ E[Xn] = E[Xm] ∀ m ≥ n

Definicion 7 Un proceso estocastico Xn es una Fn-submartingala si



3. E[Xn+1|Fn] ≥ Xn ∀ n ≥ 1

Definicion 8 Un proceso estocastico Xn es una Fn-supermartingala si



3. E[Xn+1|Fn] ≤ Xn ∀ n ≥ 1

La idea de un proceso martingala es la de aquel proceso que tiende estabilizarse en cierto

punto, a saber, su valor esperado, es decir, en promedio no crece ni decrece; en cambio una

submartingala muestra una tendencia de crecimiento; por su parte, una supermartingala

tiende a decrecer.

Ejemplos

Sean X0, X1, X2, ... variables aleatorias i.i.d. con esperanza comun µ, y

173

Mn =n∑i=0

Xi, una caminata aleatoria

ya que

E [Mn+1|M0,M1, ...,Mn] = E [Mn +Xn+1|M0,M1, ...,Mn]

= E [Mn|M0,M1, ...,Mn] + E [Xn+1|M0,M1, ...,Mn]

= Mn + E [Xn+1]

Entonces, Mn, n ≥ 0 es una Martingala si E [Xi] = 0; es una Supermartingala si E [Xi] < 0

y es una Submartingala si E [Xi] > 0.

Ejemplo 2


Mn =n∏i=0

Xi

ya que

E [Mn+1|M0,M1, ...,Mn] = E [Mn ∗Xn+1|M0,M1, ...,Mn]

= MnE [Xn+1|M0,M1, ...,Mn]

= Mn ∗ E [Xn+1]

Entonces, Mn, n ≥ 0 es una Martingala si E [Xi] = 1; es una Supermartingala si E [Xi] < 1

y es una Submartingala si E [Xi] > 1.

Ejemplo 3


Mn =1

µn

n∏i=0

Xi =1

µXn ∗Mn−1

174

Entonces, Mn, n ≥ 0 es una martingala.

Dado que

E [Mn+1|M0,M1, ...,Mn] = E[Mn ∗

Xn+1

µ|M0,M1, ...,Mn

]

=Mn

µ∗ E [Xn+1|M0,M1, ...,Mn]

=Mn

µ∗ E [Xn+1]

=Mn

µ∗ µ = Mn

Ejemplo 4 (Cocientes de verosimilitudes)

Suponga que X1, X2, ..., Xn son variables aleatorias iid con funcion de densidad comun, f,

que es cualquiera de dos diferentes densidades posibles, f0 o f1. Desde el punto de vista es-

tadıstico, deseamos elegir entre estas dos densidades aquella que genero los datos observados

x1, x2, ..., xn. Por lo tanto, planteamos el problema de contraste de hipotesis

H0 : f = f0 vs. Ha : f = f1

La decision estadıstica se basa, comunmente, en el cociente de verosimilitudes

Λn =n∏i=1

f1(xi)

f0 (xi)

Si Λn es grande, entonces los datos dan soporte a favor de la hipotesis alternativa, y contra

la hipotesis nula, por lo que la decision es rechazar esta ultima, y concluimos que la densidad

que genero los datos observados es f1. Supangamos ahora que la hipotesis nula es cierta, i.e.,

que los datos observados fueron generados por f0. Entonces

175

Ef0 [Λn+1|Λ1, ...,Λn] = Ef0[f1 (xn+1)

f0 (xn+1)Λn|Λ1, ...,Λn

]

= ΛnEf0[f1 (xn+1)

f0 (xn+1)|Λ1, ...,Λn

]

= ΛnEf0[f1 (xn+1)

f0 (xn+1)

](¿por que?)

= Λn

∫R

f1 (x)

f0 (x)f0(x)dx

= Λn × 1 = Λn

Por lo que la sucesion de cocientes de verosimilitudes es una martingala bajo la hipotesis

nula (en este caso, si la verdadera f que genero los datos es f0).

Proposicion 2 Un proceso estocastico Xn es una martingala sıi Xn es submartingala

y supermartingala

176

Teoremas de paro

Entre las razones por las cuales las martingalas son importantes, se encuentran los teoremas

de convergencia de martingalas, que bajo ciertas condiciones de acotamiento nos permiten

concluir la convergencia casi segura (o de otro tipo) de una martingala. Para abordar este

resultado, es importante extender la igualdad E (Xn) = E (X0) para abarcar no solo a tiempos

deterministas como n, sino tambien a ciertos tiempos aleatorios. Entonces, nuestro objetivo

es observar a la martingala a un tiempo que a su vez es una variable aleatoria. En realidad,

trabajaremos con una clase mas reducida de tiempos aleatorios, a saber, los tiempos de paro.

Recuperemos nuestra definicion de tiempo de paro.

Definicion 9 Una variable aleatoria τ con valores en N ∪ ∞ es un tiempo de paro con

respecto a la filtracion Fnn≥1 si τ ≤ n ∈ Fn ∀ n ∈ N

Equivalentemente τ = n ∈ Fn

Que mencionamos se interpreta como: La ocurrencia del evento “paramos el proceso al

tiempo τ = n”, puede determinarse conociendo solo los valores de X0, X1, ..., Xn, i.e., no se

requiere conocer los valores Xn+1, Xn+2, ....

Teorema 1 Teorema de Paro Opcional (TPO)

Sea Xn una Fn-martingala y τ un Fn-tiempo de paro acotado

⇒ E[Xτ ] = E[Xn] ∀ n ≥ 1

177

Demostracion. Como τ es acotado entonces ∃ n0 ∈ N tal que τ ≤ n0 por lo que

E [Xτ ] = E

[n0∑n=1

1τ=nXn

]

=

n0∑n=1

E[1τ=nXn

]

=

n0∑n=1

E[E(Xn0|Fn)1τ=n

]ya que Xn es martingala

=

n0∑n=1

E[E(1τ=nXn0|Fn)

]pues 1τ=n es Fn −medible

=

n0∑n=1

E[Xn01τ=n

]= E [Xn0 ]

Teorema 2 Teorema de Paro Opcional (TPO1)

Sea Xn una martingala y τ un tiempo de paro finito casi seguramente tal que

1. E [|Xτ |] <∞

2. limn→∞E[Xn1τ>n

]= 0

⇒ E [Xτ ] = E [Xn] ∀ n ≥ 1

Demostracion. Definamos τn = minτ, n ≤ n tiempo de paro, entonces por el TPO

tenemos

E[Xτn ] = E[X1]

⇒ E[X1] = limn→∞

E[Xτn ]

= limn→∞

(E[Xτn1τ≤n] + E[Xτn1τ>n])

pero Xτn = Xτ + (Xn −Xτ )1τ>n, entonces

E[X1] = limn→∞

(E[Xτ1τ≤n] + E[Xn1τ>n])

= limn→∞

E[Xτ1τ≤n]

178

Ahora, notese que |Xτ1τ≤n| ≤ |Xτ | ∀n⇒ E[|Xτ1τ≤n|] ≤ E[|Xτ |] <∞

ademas, por ser τ <∞ casi seguramente, se tiene que limn→∞Xτ1τ≤n = Xτ , entonces por

el teo. de convergencia dominada limn→∞E[Xτ1τ≤n] = E[Xτ ]

⇒ E[Xτ ] = E[Xn] ∀ n ≥ 1

Teorema 3 Teorema de Paro Opcional (TPO2).

Sea Xn una martingala y τ un tiempo de paro tales que

1. E[τ ] <∞

2. E[|Xn+1 −Xn||Fn] ≤ c para alguna c ∈ R

⇒ E[Xτ ] = E[Xn] ∀ n ≥ 1

Demostracion. Definamos Z1 = |X1| , Zn+1 = |Xn+1 −Xn| ∀ n ≥ 1

Notese que Xτ = X1 + (X2 −X1) + (X3 −X2) + ...+ (Xτ −Xτ−1)

⇒ |Xτ | ≤ W :=τ∑k=1

Zk =∞∑k=1

Zk1τ≥k

Ademas,

E[W ] = E[|X1|] +∞∑k=2

E[Zk1τ≥k]

= E[|X1|] +∞∑k=2

E[E(Zk1τ≥k|Fk−1)]

Observe que si A ∈ F ⇒ 1A es F -medible

179

Como τ ≤ k − 1 ∈ Fk−1 ⇒ τ > k − 1 = τ ≥ k ∈ Fk−1, entonces

E[W ] = E[|X1|] +∞∑k=2

E[1τ≥kE(Zk|Fk−1)]

≤ E[|X1|] +∞∑k=2

cP(τ ≥ k)

≤ E[|X1|] + c∞∑k=0

P(τ ≥ k)− 2c

= E[|X1|] + c

(∞∑k=0

P(τ = k) + P(τ > k)

)− 2c

= E[|X1|] + c(1 + E[τ ])− 2c <∞

∴ E[|Xτ |] ≤ E[W ] <∞ ...(∗)

Ahora para k ∈ N fijo tenemos

E[Xk1τ>k] ≤ |E[Xk1τ>k]|

≤ E[|Xk|1τ>k] por la desigualdad de Jensen

≤ E[|Xk|1τ≥k]

≤ E[W1τ≥k] −→ 0 cuando k →∞ ...(?)

Ası, (∗) y (?) permiten utilizar el TPO1, y finalmente E[Xτ ] = E[Xn] ∀ n

Teorema 4 Teorema de Wald.

Consideremos la caminata aletoria Snn∈N, Sn =∑n

k=1XK , donde Xk son variables

aleatorias independientes e identicamente distribuidas tales que E[|Xk|] <∞ ∀k. Sea Fn =

σX1, ..., Xn. Si τ es un Fn-tiempo de paro tal que E[τ ] <∞

⇒ E[Sτ ] = E[τ ]E[X]

Demostracion. Considere el proceso Ynn∈N dado por Yn = Sn − nE[X].

Se puede demostrar facilmente que Yn es una Fn-martingala.

180

Observese que

E[ |Yn+1 − Yn| |Fn] = E[ |Xn+1 − E[X]| |Fn]

≤ E[ |Xn+1| |Fn] + E[E[ |X|] |Fn]

≤ E[ |X| ] + E[ |X| ]

= 2E[ |X| ] <∞

Entonces por el TPO2 tenemos que

E[Yτ ] = E[Y1] = E[ S1 − E[X] ] = E[X]− E[X] = 0

Por otro lado,

E[Yτ ] = E[ Sτ − τE[X] ] = E[Sτ ]− E[τ ]E[X]

∴ E[Sτ ] = E[τ ]E[X]

181

Procesos asociados a la teorıa de ruina

• Hasta aquı hemos visto al modelo de perdidas agregadas

S =N∑i=1

Xi

durante un periodo fijo de tiempo, e.g., un ano.

• Ahora haremos la extension para tratarlo como dependiente del tiempo. Es decir

S(t) =

N(t)∑i=1

Xi

donde N(t) denota el numero de reclamaciones que ocurren antes del tiempo, t.

Utilizaremos este modelo dependiente del tiempo para describir el flujo de dinero de una

aseguradora, y determinar caracterısticas de la probabilidad de ruina, tanto a corto como a

largo plazo.

Notacion

Denotaremos por

• N(t): El numero aleatorio de reclamaciones generadas por un portafolio en el intervalo de

tiempo [0, t], ∀t ≥ 0.

• Xi: el momto de la i-esima reclamacion, i=1,2,3,....

• S(t): El monto de las reclamaciones agregadas en el intervalo [0, t], ∀t ≥ 0.

Entonces

• Xi∞i=1 es una sucesion de variables aleatorias.

• N(t)t≥0 es un proceso estocastico

182

• S(t)t≥0 es un proceso estocastico

Es obvio que

S(t) =

N(t)∑i=1

Xi

con S(t) = 0 si N(t) = 0.

• Al proceso estocastico S(t)t≥0 definido anteriormente, se le conoce como el proceso de

perdidas agregadas generadas por el riesgo cubierto.

• La aseguradora recibe de sus asegurados, el pago de primas correspondientes a la covertura

del portafolio.

• Supondremos que estos pagos se reciben a una tasa constante de forma continua. Sea c > 0

esta tasa de pagos por unidad de tiempo. Ya que el total de primas se recibe en el intervalo

de tiempo [0, t], entonces, este total es ct.

• Supongamos que al tiempo, t = 0, la aseguradora tiene un capital inicial respecto al

portafolio. Este cantidad inicial de dinero es el capital inicial y lo denotaremos como U.

Asumiremos que U ≥ 0.

• La aseguradora necesita este capital inicial, porque el ingreso futuro por primas, podrıa no

ser suficiente para cubrir las reclamaciones futuras.

• El capital de la aseguradora a cualquier tiempo, t > 0, es una variable aleatoria, ya que

su valor depende de las reclamaciones que se realicen hasta este tiempo. Denotaremos este

capital por U(t)

• Entonces, podemos escribir

U(t) = U + ct−N(t)∑i=1

Xi, o

U(t) = U + ct− S(t)

183

con U(0) = U .

• Notese que el capital inicial y el monto total de las primas, no son variables aleatorias, ya

que se determinan antes de que el proceso de riesgo inicie.

• Para un valor dado de t, U(t) es una variable aleatoria, ya que S(t) lo es.

• El proceso estocastico

U(t)t≥0

se conoce como el proceso de flujo de dinero o proceso de capital.

La probabilidad de ruina a tiempo continuo

• De manera vaga, cuando el capital es negativo, la aseguradora ha perdido todo su dinero

y se dice que esta en ruina o arruinada.

• Nuevamente de forma vaga, la ruina puede ocurrir cuando la aseguradora se declara insol-

vente, no obstante, determinar si una companıa de seguros es insolvente es, en la practica,

una cuestion muy compleja.

• Otra manera de ver esta probabilidad de ruina, es pensarla como la posibilidad de que,

en algun tiempo futuro, la companıa aseguradora requiera prover mas capital para financiar

este particular portafolio.

Probabilidades de ruina

• Definimos las siguientes dos probabilidades

Ψ (U) = P [U(t) < 0, 0 < t <∞] y

Ψ (U, t) = P [U(τ) < 0, 0 < τ < t]

• Ψ (U) se le conoce como la probabilidad de ruina eventual (horizonte infinito), dado el

capital inicial, U. Se denota como funcion de U, para hacer enfasis de que dicha probabilidad

depende, entre otros parametros, del capital inicial del que se disponga.

184

• Ψ (U, t) es la probabilidad de ruina antes del tiempo, t (horizonte finito), dado el capital

inicial, U.

Algunas relaciones simples y logicas

Enunciamos algunas importantes relaciones logicas entre estas dos probabilidades. Sean

0 < t1 < t2 <∞ y U1 < U2, entonces

1. Ψ (U2, t) ≤ Ψ (U1, t)

Ψ (U2) ≤ Ψ (U1)

Es decir, a un capital inicial mayor, es menos creible que la ruina ocurra ya sea en

horizonte finito o infinito.

2. Ψ (U, t1) ≤ Ψ (U, t2) ≤ Ψ (U)

Dado un capital inicial, al prolongar el periodo de tiempo para observar la ruina, es

mas creible que esta ocurra.

3. limt→∞

Ψ (U, t) = Ψ (U)

La probabilidad de ruina a horizonte infinito, puede ser aproximada (es similar) a la

probabilidad de ruina a horizonte finito, si t es suficientemente grande.

4. limU→∞

Ψ (U, t) = 0

Cuando el capital inicial crece, la ruina es cada vez menos creible.

Probabilidades de ruina en tiempo discreto

• Las probabilidades de ruina anteriores, son probabilidades de ruina a tiempo continuo, lla-

madas ası porque hay un seguimiento continuo de la posibilidad de ruina de la aseguradora.

• En la practica puede ser posible, y aun deseable, hacer el seguimiento de ruina solo a

intervalos discretos de tiempo.

185

• Supongamos que los intervalos son de longitud h. Entonces, definimos las siguientes prob-

abilidades de ruina a tiempo discreto

Ψh (U) = P [U(t) < 0, t = h, 2h, 3h, ...], y

Ψh (U, t) = P [U(τ) < 0, τ = h, 2h, 3h, ..., t− h, t]

Notese que se supone, por conveniencia en la definicion de Ψh (U, t), que t es un entero

multiplo de h.

186

El modelo clasico de Camer-Lundberg

El modelo de Cramer-Lundberg, tiene sus orıgenes en la tesis doctoral de Filip Lundberg

que defendio en el ano de 1903. En este trabajo, Lundberg analiza el reaseguro de riesgos

colectivos y presenta el proceso de Poisson compuesto. Lundberg utilizo terminos un tanto

distintos a los actuales pues en aquellos anos aun no se habıa formalizado la teorıa de los

procesos estocasticos como la entendemos actualmente. En 1930, Harald Cramer retoma

las ideas originales de Lundberg, y las pone en el contexto de los procesos estocasticos, en

ese entonces, de reciente creacion. El modelo se ha estudiado de manera extensa, y se han

propuesto varias formas de generalizarlo y analizado.

Este modelo clasico de riesgo para la actividad de una companıa de seguros, es el proceso

estocastico a tiempo continuo U(t), t ≥ 0, definido por

U(t) = U + ct−N(t)∑t=1

Xi, t ≥ 0

con U el capital inicial de la companıa aseguradora, ct es el ingreso por primas hasta

el tiempo, t, con c una constante positiva; Xi es el monto de la i-esima reclamacion, y

N(t), t ≥ 0 un proceso Poisson de parametro, λ.

La variable U(t) representa el balance mas simple de ingresos menos egresos de una companıa

aseguradora. Al proceso, U(t), t ≥ 0, se le llama proceso de riesgo (risk process), o pro-

ceso de superavit (surplus process), y tiene trayectorias como se muestra en la siguiente figura

187

2 4 6 8 10

−20

020

4060

Trayectoria del proceso de ruina

tiempo

U(t

)

τ

Algunas caracterısticas del proceso de riesgo

• Las trayectorias del proceso empiezan siempre en U el capital inicial.

• Las variables aleatorias Xi, i = 1, 2, ... son i.i.d., con funcion generadora de momentos

MX(t), E (X) = µ1 = µ y E (X2) = µ2

• E [U(t)], es

E [U(t)] = E

U + ct−N(t)∑t=1

Xi

= U + ct− E [N(t)]E (Xi)

=︸︷︷︸∗

U + ct− λtµ = U + (c− λµ) t

* ya que

N(t)∑t=1

Xi es un Poisson compuesto, con intensidad λt.

188

• V [U(t)] = λµ2t Por el mismo argumento anterior.

La “trayectoria promedio” de este proceso de riesgo es la lınea recta que inicia en U > 0 y

tiene pendiente c− λµ, que es positiva por la condicion o hipotesis de ganancia neta (enun-

ciada posteriormente). La variable aleatoria U(t) puede interpretarse como el capital de

la companıa aseguradora al tiempo, t, y por razones naturales y legales es importante que

U(t) este por arriba de cierto nivel mınimo. Supongamos que tal nivel mınimo es a, con

0 < a < U . Ajustando el capital inicial, U, esto es, suponiendo un nuevo capital inicial de

magnitud U−a, se puede suponer, sin perdida de generalidad, que este nivel mınimo es cero,

y ası lo haremos en nuestro analisis. De esta forma cuando U(t) ≤ 0 para algun t > 0 se dice

que hay ruina. La ruina casi nunca sucede en la practica, es solamente un termino tecnico

que produce alguna toma de decision. Por ejemplo, si el capital de una companıa aseguradora

asignado a una cartera decrece en forma significativa, automaticamente la aseguradora puede

tomar ciertas medidas para subsanar esta situacion y no se trata de un evento insalvable.

Por otro lado es natural suponer que la companıa aseguradora posea varios portafolios de

modo que ruina en uno de ellos no significa necesariamente bancarrota que el termino ruina

podrıa sugerir.

La condicion de ganancia neta

Sean T0, T1, T2, ... los tiempos aleatorios en donde la aseguradora recibe las reclamaciones.

Supondremos T0 = 0. Para cada entero k ≥ 1 definamos la variable aleatoria Yk =

c (Tk − Tk−1) − Xk, que pueden interpretarse como el balance de la companıa aseguradora

entre dos siniestros sucesivos. La esperanza de esta variable es

E (Yk) = cE (Tk − Tk−1)− E (Xk) = c

(1

λ

)− µ

Se puede demostrar que la ruina ocurre casi seguramente si, y solo si, E (Yk) ≤ 0. Como no

deseamos que la ruina ocurra, debemos suponer que E (Yk) > 0, es decir, supondremos que

se tiene la condicion de ganancia neta

c > λµ

Que interpretamos de la siguiente forma: en promedio, la entrada por primas por unidad de

189

tiempo, c, es mayor que el total de reclamaciones por unidad de tiempo, λµ.

190

Probabilidades de ruina con el modelo Carmer-Lundberg

Nos interesa calcular o estimar la probabilidad de una eventual ruina (horizonte infinito) en

el modelo de Cramer-Lundberg.

Definamos el tiempo de ruina, τ , como el primer momento en que la ruina se presenta, es deir

τ = inf t > 0 : U(t) ≤ 0

y se define inf∅ =∞. Por lo que τ es una variable aleatoria que toma valores en el intervalo

(0,∞]. Recordemos que, dado un valor, t > 0 fijo, habıamos definido la probabilidad de

ruina en el intervalo (0, t], llamada probabilidad de ruina a horizonte finito, como

Ψ (U, t) = P (τ ≤ t|U(0) = U)

Y esta misma probabilidad de ruina a horizonte infinito, como

Ψ (U) = P (τ <∞|U(0) = U)

Probabilidad de ruina a horizonte infinito

Ahora presentaremos tres resultados generales sobre la probabilidad de ruina con horizonte

infinito. Denotaremos como F (y) a la funcion de distribucion de cualquiera de las reclama-

ciones, Y, y funcion de supervivencia como F (y) = 1−F (y). La correspondiente funcion de

densidad sera denotada por f(y), siempre que exista.

Proposicion. Sea Ψ (U) = 1 − Ψ (U). Supongamos que la distribiucion de cualquier recla-

macion en el modelo de Cramer-Lundberg es absolutamente continua, con funcion de densi-

dad f(y). Entonces

1.-d

dUΨ (U) =

λ

c

[Ψ (U)−

∫ U

0

Ψ (U − y) f(y)dy

]

2.- Ψ (0) =λµ

c

191

3.- Ψ (U) =λ

c

[∫ ∞U

F (y) +

∫ U

0

Ψ (U − y) F (y)dy

]

Dem.

Demostracion. Para hacer la demostracion del punto 1, condicionaremos al monto de la

primera reclamacion Y1 y el momento T1 en el que ella ocurre. Usaremos ademas el hecho

de que T1 tiene distribucion exp(λ), ya que es el tiempo que ocurre antes de la primer recla-

macion, que, en este modelo de Cramer-Lundberg, tiene distribucion Poisson. Entonces

Ψ (U) = P (No ruina en (0,∞)|U(0) = U)

=

∫ ∞0

∫ ∞0

P (No ruina en (0,∞)|U(0) = U, Y1 = y, T1 = t) f(y)fT1(t)dydt

=︸︷︷︸∗

∫ ∞0

∫ U+ct

0

P (No ruina en (0,∞)|U(0) = U, Y1 = y, T1 = t) f(y)fT1(t)dydt

=

∫ ∞0

λe−λt∫ U+ct

0

P (No ruina en (0,∞)|U(0) = U, Y1 = y, T1 = t) f(y)dydt

=︸︷︷︸∗∗

∫ ∞0

λe−λt∫ U+ct

0

Ψ (U + ct− y) f(y)dydt

* Ya que si no hay ruina para Y = Y1, entonces Ψ(U) ≥ 0⇒ U + ct−Y1 ≥ 0⇒ Y1 ≤ U + ct

** Ya que, por el punto * este es un valor de U para el que la ruina no se presenta, por lo

tanto, lo que se presenta es el complemento de Ψ(U), es decir, Ψ (U). Si hacemos el cambio

de variable: s = U + ct, que implica t = (s− U) /c y ds = cdt, tenemos que

Ψ (U) =λ

ceλU/c

∫ ∞U

e−λs/c∫ s

0

Ψ (s− y) f(y)dyds

Derivando esta expresion respecto a U, utilizando el teorema fundamental del calculo, obten-

emos la relacion deseada.

192

Para derivar el segundo inciso, integramos en el intervalo [0, U ], la expresion en 1. Y obten-

emos

∫ U

0

d

dsΨ (s) = Ψ (U)− Ψ (0) =

λ

c

[∫ U

0

Ψ (x)−∫ U

0

∫ x

0

Ψ (x− y) dF (y)dx

]

=λ

c

[∫ U

0

Ψ (x)−∫ U

0

∫ U

y

Ψ (x− y) dxdF (y)

](x− y > 0⇒ x > y)

=︸︷︷︸∗

λ

c

[∫ U

0

Ψ (x)−∫ U

0

∫ U−y

0

Ψ (x) dxdF (y)

]

=λ

c

[∫ U

0

Ψ (x)−∫ U

0

∫ U−x

0

Ψ (x) dF (y)dx

]

=λ

c

[∫ U

0

Ψ (x)−∫ U

0

Ψ (x)F (y)∣∣∣U−x0

dx

=λ

c

∫ U

0

Ψ (x) [1− F (U − x)] dx

=λ

c

∫ U

0

Ψ (x) F (U − x)dx

=λ

c

∫ U

0

Ψ (U − x) F (x)dx · · · (1)

=λ

c

∫ U

0

Ψ (U − x) F (x)1[0,U ](x)dx

* Ya que si x=y, entonces, el lımite inferior de la integral es cero y si x=U, el lımite superior

es u-y.

Ahora, solo resta tomar lımite cuando U →∞. En el lado derecho de la igualdad tenemos

limU→∞

(Ψ (U)− Ψ (0)

)= 1− Ψ (0) (Ya que si U →∞ entonces la ruina ocurre con probabili-

dad uno). En el lado izquierdo ocurre que Ψ (U − x) es una funcion monotona creciente que

converge a uno, entonces, esta integral converge a la integral

∫ ∞0

F (x)dx =

∫ ∞0

[1− F (x)] dx

193

Y recordando que

E (X) =

∫ ∞0

F (x)dx =

∫ ∞0

[1− F (x)] dx = µ

Finalmente tenemos que

1− Ψ (0) =λµ

c

por lo que

Ψ (0) = 1− Ψ (0) =λµ

c· · · (2)

Para probar el ultimo inciso, usaremos los resultados (1) y (2), de la siguiente forma

Primero tenemos que

λ

c

∫ U

0

Ψ (U − x) F (x)dx =︸︷︷︸1

Ψ (U)− Ψ (0)

= 1−Ψ (U)− Ψ (0)

=︸︷︷︸2

λµ

c−Ψ (U)

Entonces

194

Ψ (U) =λ

c

[µ−

∫ U

0

Ψ (U − x) F (x)dx

]

=λ

c

[µ−

∫ U

0

(1−Ψ (U − x)) F (x)dx

]

=λ

c

[µ−

∫ U

0

F (x)dx+

∫ U

0


]

=λ

c

[∫ ∞0

F (x)dx−∫ U

0

F (x)dx+

∫ U

0


]

=λ

c

[∫ ∞U

F (x)dx+

∫ U

0


]

Observese que la ultima expresion corresponde a una forma recursiva para encontrar la

probabilidad de ruina. En general no es facil resolver este tipo de ecuaciones, de modo que

unicamente nos limitaremos a encontrar algunas estimaciones de las mismas. Sin embargo,

cuando las reclamaciones tienen distribucion exponencial el sistema es soluble como se mues-

tra a continuacion.

Ejercicio. Encontraremos la probabilidad de ruina, en el modelo de Camer-Lundberg, cuando

las reclamaciones son exponenciales (α).

En este caso, sabemos que E (X) =1

α. Entonces, la probabilidad de no ruina es

Ψ′(u) =

λ

c

[Ψ (u)− e−λu

∫ u

0

Ψ(y)αeαydy

]

Entonces, derivando esta expresion obtenemos la ecuacion diferencial

Ψ′′

(u) =

(λ

c− α

)Ψ′(u)

cuya solucion es

Ψ (u) = a+ be−(α−λ/c)u

195

Utilizando las condiciones iniciales Ψ (0) =λ

αc(observemos aquı que la media de la expo-

nencial es 1α

, no µ como la habıamos denotado antes) y Ψ (∞) = 0 (recordar que si el capital

inicial U es infinito, la ruina jamas se presenta). Estas dos condiciones iniciales generan el

sistema de ecuaciones

λ

αc= a+ b

0 = a

que tiene la solucion: a = 0 y b = λαc

. Por lo que la solucion queda como

Ψ (u) =λ

αce−(α−λ/c)u

cuya grafica se encuentra en la siguiente figura. Observe que debido a la condicion de ganan-

cia neta, el exponente −(α− λ

c

)es negativo, y por lo tanto la probabilidad de ruina decae

a cero exponencialmente cuando el capital inicial, U, crece a infinito.

196

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

Gráfica probabilidad de ruina exponencial

u

λ cα

Ψ(u)

197

Coeficiente de ajuste

Una aproximacion para la probabilidad de ruina bajo el estudio de un horizonte infinito, es

la que proporciona el coeficiente de ajuste de Lundberg. Se trata de un instrumento util para

conseguir lımites para la probabilidad de ruina. Para eso es preciso definir previamente el

Coeficiente de Ajuste. Definamos primero la funcion

θ(r) = λ (MY (r)− 1)− cr

con MY (r) la funcion generadora de momentos de Y . Por supuesto, esta funcion esta definida

para los valores de r en donde MY (r) existe. Entonces, suponiendo que esta funcion es difer-

enciable, tenemos que

• θ′(r) = λM′Y (r)− c

• θ′′(r) = λM′′Y (r) = λE

(Y 2erY

)> 0

Por lo tanto, es una funcion estrictamente convexa, con θ(0) = 0. Y por la condicion de

ganancia neta, (c > λµ), se tiene que

θ′(0) = λMY (0) − c = λµ − c < 0. Entonces, es posible que exista un valor R > 0 tal que

θ(R) = 0. Observese la siguiente figura

198

0.0 0.5 1.0 1.5 2.0 2.5 3.0

−2

02

46

Gráfica coeficiente de ajuste

r

θ(r)

199

Def. A la posible solucion, R > 0, de la siguiente ecuacion se le llama coeficiente de ajuste,

o exponente de Lundberg.

θ(R) = λ (MY (R)− 1)− cr = 0

Observese que la existencia del coeficiente de ajuste depende totalmente de la distribucion

de las reclamaciones. Aquellas distribuciones para las que el coeficiente de ajuste existe se

les llama distribuciones con colas ligeras, y la razon de ello es que la funcion de densidad

decae a cero exponencialmente, asignando probabilidades pequenas a reclamaciones grandes.

Este hecho significa que la distribucion tiene momentos finitos, y MY existe. Por ejemplo,

demostraremos a continuacion que en el caso de reclamaciones exponenciales (distribucion

con colas ligeras), el coeficiente de ajuste existe y es facil calcularlo.

Ejemplo. Montos de reclamacion con distribucion exponencial. Supongamos que

Yi ∼ Exp (α), con funcion generadora de momentos dada por MY (r) =α

α− r, r < α. En-

tonces

θ(r) = λ (MY (r)− 1)− cr

= λ

(α

α− r− 1

)− cr

= λ

(r

α− r

)− cr

=

(λ

α− r− c)r

Por lo que θ(r) = 0⇒ r = 0, oλ

α− r− c = 0. Esta segunda ecuacion implica

R = r = α− λ

c

Mas aun, recordando el resultado que obtuvimos al calcular la probabilidad de ruina cuando

los montos de reclamacion eran exponenciales, esta probabilidad de ruina puede escribirse

de la siguiente forma

200

Ψ (u) =λ

αce−(α−λ/c)u =

λ

αce−Ru ≤ e−Ru

La desigualdad es consecuencia de la condicion de ganancia neta.

c > λµ, en este caso c > λ1

α⇒ cα > λ y

λ

cα< 1

Este tipo de cota superior para la probabilidad de ruina (llamada desigualdad de Lundberg)

la demostremos mas adelante, para cualquier distribucion de las reclamaciones para la que

el coeficiente de ajuste exista.

“Ostro” ejemplo (Reclamaciones con distribucion gamma). Supongamos que las reclama-

ciones se distribuyen gamma(γ, α) con γ = 2. Con funcion generadora de momentos

MY (r) =

(α

α− r

)γ, r < α

Por lo que

θ(r) = λ

[(α

α− r

)γ− 1

]− cr

El requerimiento θ(r) = 0, genera la ecuacion cuadratica

cr2 + r (λ− 2αc) + (cα2 − 2αλ) = 0

cuyas raıces, son

r =2αc− λ±

√λ2 + 4αcλ

2c

El caso con raız cuadrada positiva no es valido pues resulta r > α. En efecto, utilizando la

condicion de ganancia neta, c >2λ

α, tenemos

201

2αc− λ+√λ2 + 4αcλ

2c≥ 2αc− λ+

√λ2 + 8λ2

2c

= α +λ

c

> α

por lo que la raız con el signo negativo es el coeficiente de ajuste.

Ejemplo (Reclamaciones con distribucion gamma) En el ejemplo anterior, el hecho de asig-

narle al parametro γ de la distribucion gamma, el valor dos, fue premeditado para obtener

una ecuacion de segundo grado, si asignamos el valor de γ = 3, obtenemos la ecuacion cubica

f(r) = λ(α3 − (α− r)3

)− cr (α− r)3 = 0

La raız, r, que buscamos es tal que por condiciones de existencia de la funcion generadora

de momentos debe satisfacer 0 < r < α. Para ilustrar el calculo con R de la solucion de esta

ecuacion, tomaremos α = 3, λ = 1 y c=2. Estos valores aseguran que se cumple la condicion

de ganancia neta: c >3λ

α.

202

0 1 2 3 4 5

−20

020

4060

8010

0Gráfica coeficiente de ajuste gamma

r

θ(r)

R

f < −function(x)(9− (3− x)3)− 2 ∗ x ∗ (3− x)3

uniroot(f, c(0, 10))

root [1]1.737766

f.root [1]− 0.000450224

iter [1]10

estim.prec [1]6.103516e− 05

El siguiente resultado proporciona una forma equivalente de definir el coeficiente de ajuste,

permite, ademas, comprobar su existencia a traves de la determinacion del caracter finito de

una integral, y posibilita dar una interpretacion de aquellas distribuciones de probabilidad

para las cuales el coeficiente de ajuste existe.

Proposicion. La ecuacion θ(r) = λ (MX(r)− 1)− cr = 0 tiene una posible solucion r > 0 si,

y solo si, se cumple la identidad

203

∫ ∞0

erxF (x)dx =c

λ

con F = 1− F (x), y F (x), la funcion de distribucion de los montos de reclamacion.

Dem

Recordemos que la funcion generadora de momentos de una v.a. X, se define como

MX(r) =

∫ ∞0

erxf(x)dx =

∫ ∞0

erxdF (x)dx = −∫ ∞0

erxdF (x)dx

Integrando por partes la ultima expresion en la funcion generadora de momentos

Sea u = erx ⇒ du = rerxdx y dv = dF (x)⇒ V = F (x). Por lo que

∫ ∞0

erxdF (x)dx = −[erxF (x)

∣∣∣∞0−∫ ∞0

rerxF (x)dx

]

Ya que por hipotesis la funcion generadora de momentos existe, entonces erxF (x)∣∣∣∞ = 0 y

erxF (x)∣∣∣0

= 1 (esto implica que el decaimiento en las colas de la distribucion de F(x), es

mayor al crecimiento de erx). Entonces

∫ ∞0

erxdF (x)dx = −[−1−

∫ ∞0

rerxF (x)dx

]

Por lo tanto

∫ ∞0

erxdF (x)dx = 1 +

∫ ∞0

rerxF (x)dx

Ahora, ya que

204

0 = θ(r)

= λ (MX(r)− 1)− cr

= λ

(∫ ∞0

erxdF (x)dx− 1

)− cr

= λr

∫ ∞0

erxdF (x)dx− cr (despejando del resultado anterior)

Entonces, despejando esta ultima igualdad, tenemos

∫ ∞0

erxdF (x)dx =c

λ

Ejemplo Usaremos este criterio para demostrar que para la distribucion Weibull existe el

coeficiente de ajuste, si el parametro de forma, γ ≥ 1. En este caso tenemos que

• f(x, γ, λ) = λγ (λt)γ−1 e−(λt)γ

• F = e−(λt)γ

Entonces

∫ ∞0

erxdF (x)dx =

∫ ∞0

erxe−(λx)γ

dx

=

∫ ∞0

erx−(λx)γ

dx

Esta integral existe si rx− (λx)γ ≤ 0⇒ rx ≤ (λx)γ ⇒ x ≤ xγ ⇒ γ ≥ 1.

Ejemplo 2. Veamos que pasa con la distribucion Burr y este coeficiente. Esta variable tiene

funcion de distribucion dada por

F (x) = 1−(

k

k + xβ

)α, x ≥ 0, α > 0, β > 0

205

Por lo que F (x) =

(k

k + xβ

)α. Entonces

∫ ∞0

erxdF (x)dx =

∫ ∞0

erx(

k

k + xβ

)αdx

≈∫ ∞0

erxx−βαdx =∞

Por lo tanto la distribucion Burr es una distribucion con colas pesadas.

Comentamos en el desarrollo de este coeficiente de ajuste que, para que exista, la cola de la

distribucion, F , debe decaer a cero lo suficientemente rapido para anular el comportamiento

creciente del termino, erx dentro de la integral. En el ejemplo de la distribucion Burr, la cola

decae a cero en la forma, x−βα que resulta insuficiente para hacer que la integral sea finita.

Una distribucion con cola ligera asigna probabilidades muy pequenas a los valores grandes de

la variable aleatoria. Esto puede representar un inconveniente para modelar algunos riesgos

que pudieran registrar grandes montos en las reclamaciones.

Desigualdad de Lundberg

Vamos a demostrar ahora que para aquellas distribuciones para las cuales el coeficiente de

ajuste, R, existe, se cumple la desigualdad Ψ(u) < e−Ru. Para demostrar este resultado

haremos uso de la teorıa de martingalas.

Proposicion. Sea U(t) el proceso de riesgo, y sea θ(r) = λ (MX(r)− 1)− cr. Entonces, el

procesoe−rU(t)−θ(r)t : t ≥ 0

es una martingala.

Utilizaremos la definicion, equivalente a la que dimos antes, de martingala siguiente

Def. Un proceso Mt : t ≥ 0 que es adaptado e integrable es una martingala si para

0 ≤ s ≤ t, se cumple que

E (Mt|Fs) = Ms

con Fs una filtracion.

206

Dem. Que el proceso es adaptable es claro pues, implıcitamente, estamos usando la filtracion

natural, Ft = σ Xs : 0 ≤ s ≤ t.

Para demostrar que es integrable, consideremos los siguientes calculos

E(e−rU(t)−θ(r)t) = e−θ(r)tE

(e−r(u+ct−

∑N(t)j=1 Yj

))= e−θ(r)t−r(u+ct)E

(er∑N(t)j=1 Yj

)= e−θ(r)t−r(u+ct)MS(t)(r)

= e−θ(r)t−r(u+ct)eλt(MY (r)−1)

<︸︷︷︸∗

∞

* Ya que −θ(r)t = −λt (MY (r)− 1) + crt. Entonces, el exponente de la funcion exponencial

es

−λt (MY (r)− 1) + crt− ru− crt+ λt (MY (r)− 1) = −ru

Y para demostrar que se cumple la propiedad de martingala: E (Mt|Fs) = Ms. Para 0 ≤s < t

E(e−rU(t)−θ(r)t|Fs

)= e−θ(r)tE

(e−rU(t)|Fs

)= e−θ(r)tE

(e−r(U(t)−U(s))−rU(s)|Fs

)= e−θ(r)t−rU(s)E

(e−r(U(t)−U(s))|Fs

)= e−θ(r)t−rU(s)E

(e−r(c(t−s)−

∑N(t)j=N(s)+1

Yj)|Fs

)= e−θ(r)t−rU(s)−rc(t−s)E

(er∑N(t)j=N(s)+1

Yj |Fs

)= e−θ(r)t−rU(s)−rc(t−s)E

(er∑N(t−s)j=1 Yj |Fs

)= e−θ(r)t−rU(s)−rc(t−s)eλ(t−s)(MY (r)−1)

= e−rU(s)−θ(r)s

= Ms

207

En particular, si el coeficiente de ajuste existe, es decir, si θ(R) = 0, entonces el proceso,e−RU(t)

es una martingala. Este es el resultado clave para demostrar la siguiente cota

superior para la probabilidad de ruina.

Desigualdad de Lundberg. Suponga que el coeficiente de ajuste R existe. Entonces

Ψ(u) ≤ e−Ru

Dem. Sea τ el tiempo de paro correspondiente al tiempo (momento) de ruina. Como el

procesoe−RU(t)

es una martingala, se tiene que el proceso

e−RU(t∧τ) tambien es una

martingala, que inicia en e−Ru, ya que U(t) = u + ct −N(t)∑j=1

Yj ⇒ U(0) = u entonces el

proceso,e−RU(t∧τ), inicia en e−Ru. Por lo tanto

e−Ru = e−RU(0)

= E(e−RU(t∧τ)) (Porque e−RU(t∧τ), es matingala

)= E

(e−RU(t∧τ)|τ ≤ t

)P (τ ≤ t)

+E(e−RU(t∧τ)|τ > t

)P (τ > t)

≥ E(e−RU(t∧τ)|τ ≤ t

)P (τ ≤ t)

= E(e−RU(τ)|τ ≤ t

)P (τ ≤ t)

=

(∫e−RU(τ)1τ≤tdP

)P (τ ≤ t)

Si hacemos que t → ∞, entonces, el evento (τ ≤ t) tiende de manera monotona al evento

(τ <∞). Utilizando el teorema de convergencia monotona se obtiene entonces que

208

e−Ru ≥ E(e−RU(τ)|τ <∞

)P (τ <∞)

> E (1|τ <∞)P (τ <∞)

= P (τ <∞)

= Ψ(u)

por lo tanto, se tiene la desigualdad de Lundberg

Ψ(u) ≤ e−Ru

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

Desigualdad de Liundberg

u

Ψ(u

)

e−Ru

Ejemplo Supongamos que la distribucion de las reclamaciones es Exp(1) y que el tiempo

entre dos eventos Poisson se distribuye como Exp(2); ademas, la tasa constante de pago de

primas es c = 2.4 miles de pesos. Calcular el coeficiente de ajuste para este caso.

• Lo primero que hay que hacer es calcular R. Recordemos que para este caso

R = α− λ

c= 1− 2

2.4= 0.1666667

209

Por lo que la desigualdad de Lundber es

Ψ(u) ≤ e−0.1666667∗u

El calculo con R es

adjCoef(mgf.claim = mgfexp(x),mgf.wait = mgfexp(x, 2), premium.rate = 2.4, upper =

1)

[1]0.1666667

Uno mas complicado

adjCoef(mgf.claim = mgfgamma(x, 3, 3),mgf.wait = mgfexp(x, 1), premium.rate =

2, upper = 1)

[1]0.8404738

210

Cotas para el coeficiente de ajuste

Como hemos visto, el coeficiente de ajuste no siempre existe, y aun cuando conozcamos su

existencia no siempre es facil calcularlo. El siguiente resultado proporciona algunas cotas

para el valor de este coeficiente, suponiendo su existencia.

Proposicion Si el coeficiente de ajuste, R, existe, entonces

1

Mln

(c

λµ

)< R <

2 (c− λµ)

λµ2

Demostracion para la cota superior. Consideremos nuevamente la funcion θ(r) = λ (MX(r)− 1)−

cr, para r ≥ 0. Sabemos que θ(0) = 0. Derivando dos veces esta funcion tenemos

θ′(r) = λM

′Y (r)− c

θ′′(r) = λE

(Y 2erY

)> λE (Y 2) = λµ2

De donde tenemos que θ′(0) = λµ − c. Ademas, utilizando el teorema fundamental del

calculo, tenemos que

∫ r

0

θ′′(s)ds = θ

′(r)− θ′(0)

⇒ θ′(r) = θ

′(0) +

∫ r

0

θ′′(s)ds > λµ− c+

∫ r

0

λµ2dr = λµ− c+ λµ2r

Integrando ambos lados de la desigualdad, tenemos

θ(r) = θ(0) +

∫ t

0

θ′(s)ds > (λµ− c) t+ λµ2

r2

2

Evaluando esta desigualdad en la raız, R, obtenemos

0 > (λµ− c)R + λµ2R2

2=

[(λµ− c) + λµ2

R

2

]R

211

Ya que R > 0, entonces, para que la expresion en la derecha de la desigualdad sea negativa,

debe suceder que

(λµ− c) + λµ2R

2< 0⇒ R <

2 (c− λµ)

λµ2

Para la cota inferior tenemos

Supongamos Y ≤M c.s. y definamos la funcion

h(x) =x

M

(eRM − 1

)−(eRx − 1

)Entonces, tenemos que h

′′(x) = −R2eRx < 0. Por lo tanto, h, es concava, con h(0) = h(M) =

0, que implica que h(x) > 0 para x ∈ (0,M). Es decir

x

M

(eRM − 1

)−(eRx − 1

)> 0

equivalentemente

(eRx − 1

)<

x

M

(eRM − 1

)· · · (1)

Ahora, consideremos la funcion g(x) = xex− ex + 1. Entonces tenemos que g′(x) = xex > 0.

Por lo tanto, g(x) es creciente, y g(x) > g(0) = 0. Es decir g(x) = xex− ex + 1 > 0, si x > 0.

Si evaluamos esta funcion en x = RM > 0, tenemos g(x) = RMeRM−eRM+1 > 0. Por lo que

eRM − 1

RM< eRM

Por otro lado, y utilizando (1), tenemos

212

MY (R)− 1 =

∫ M

0

(eRx − 1

)dF (x)

≤︸︷︷︸(1)

∫ M

0

x

M

(eRM − 1

)dF (x)

=1

M

(eRM − 1

) ∫ M

0

xdF (x)

=µ

M

(eRM − 1

)· · · (2)

Ahora, utilizando (2) y despues (1), obtenemos

0 = λ (MY (R)− 1)− cR

≤︸︷︷︸(2)

λµ

M

(eRM − 1

)− cR

<︸︷︷︸(1)

λµReRM − cR

= λµ(λµeRM − c

)R

de donde tenemos que λµeRM − c > 0. Y finalmente

1

Mln

(c

λµ

)< R

Observese que la cota superior no requiere de hipotesis adicionales, de modo que cuando el co-

eficiente de ajuste, R, existe, este se encuentra siempre dentro del intervalo

(0,

2 (c− λµ)

λµ2

).

Observe tambien que cuando las reclamaciones estan acotadas superiormente por una con-

stante positiva, M, puede encontrarse una cota superior para la probabilidad de ruina sin

conocer, necesariamente, el coeficiente de ajuste pues

Ψ(u) < e−Ru <︸︷︷︸∗

e−uMln( c

λµ) = eln(λµc )

uM

=

(λµ

c

) uM

213

*Multiplicando la cota superior por -u.

214

Aproximaciones al modelo de Carmer-Lundberg

Aproximacion de De Vylder

Consideremos nuevamente el modelo de Cramer-Lundberg

U(t) = U + ct−N(t)∑j=1

Yj

donde las reclamaciones Yj tienen una distribucion desconocida. La aproximacion propuesta

por De Vylder consiste en aprovechar el hecho de que, para este modelo, el problema de

encontrar la probabilidad de ruina es completamente soluble cuando las reclamaciones son

exponenciales. De Vylder propone la siguiente reformulacion del modelo

U(t) = u+ ct−N(t)∑j=1

Yj

c una nueva tasa de ingreso por primas,N(t) : t ≥ 0

, un proceso Poisson de parametro

λ, y Yj variables aleatorias con distribucion exp(α). La idea es aproximar la probabilidad

de ruina del modelo original de riesgo, por medio de este modelo reformulado. Para ello se

deben encontrar los valores de los parametros, c, λ y α, en terminos de los parametros del

riesgo original, como lo mostramos en seguida.

Proposicion. La probabilidad de ruina del riesgo en el modelo de Carmer-Lundberg, puede

aproximarse por la formula

Ψ(u) ≈ λ

c αe−(α− λ

cu), con

α =3µ2

µ3

, λ =9

2

λµ32

µ23

, c = c− λµ+3

2

λµ22

µ3

Dem. El metodo consiste en igualar los tres primeros momentos de los procesos U(t) y U(t),

asumiendo que estos existen.

215

• Igualacion de las esperanzas. Es decir, hay que encontrar las condiciones bajo las que

E [U(t)] = E[U(t)

]. Entonces, tenemos que

E [U(t)] = U + ct− λµt = U + ct− λ 1

αt = E

[U(t)

]⇒ c = c− λµ+ λ

1

α

• Igualacion de varianzas (Igualacion de los segundos momentos). El siguiente paso es igualar

las varianzas. Recordemos que la varianza de un riesgo, S, que sigue un modelo de perdidas

agregadas Poisson(λ), esta dada por V (S) = λµ2. Entonces, igualando las varianzas de

estos dos procesos, tenemos

V [U(t)] = λµ2 = λ2

α2= V

[U(t)

]• Igualadad entre los terceros momentos. Finalmente, recordemos que el tercer momento cen-

tral de un riesgo, S, que sigue un modelo colectivo Poisson(λ), esta dado por E[(S − E(S))3

].

En este caso del modelo de perdidas, tenemos

E[(U(t)− E(U(t)))3

]= λµ3 = λ

6

α3= E

[(U(t)− E(U(t))

)3]

Solo resta igualar convenientemente estas ecuaciones para encontrar los parametros de in-

teres. De las igualdades de la varianza y tercer momento, se desprende que

1

2λµ2α

2 =1

6λµ3α

3

⇒ α =3µ2

µ3

Ahora, sustituyendo este valor en la ecuacion generada al igualar las varianzas, tenemos

λ =9

2

λµ32

µ23

216

Finalmente, sustituyendo estos dos valores en la igualdad entre las esperanzas, tenemos

c = c− λµ+3

2

λµ22

µ3

Entonces, hemos encontrado los valores de los parametros del modelo reformulado: λ, α, c,

en terminos de los del modelo original λ, c y de los momentos de la distribucion de las

reclamaciones, Y.

Formula de Pollaczec-Khinchin

La formula de Pollaczek-Khinchin es una expresion general que permite escribir a la proba-

bilidad de ruina en terminos de una serie infinita de convoluciones.

Proposicion (Formula de Pollaczec-Khinchin). La probabilidad de ruina en el modelo de

Cramer-Lundberg esta dada por

Ψ(u) = (1− p)∞∑n=1

pnH∗(n)(u)

con p =λµ

c, y H(x) =

1

µ

∫ x

0

F (y)dy, x ≥ 0

Con µ la esperanza de la distribucion asociada al monto de reclacion. Claramente es muy

difıcil de utilizar esta serie para calcular la probabilidad exacta de ruina, debido a su caracter

infinto. No obstante, se usa ampliamente para calcular aproximaciones de probabilidades de

ruina.

Dem

Primero veamos que la variable aleatoria 1 − Ψ(u) corresponde a la distribucion de una

variable geometrica compuesta con parametros

(1− p = 1− λµ

c,H∗

)(Recordemos que la

probabilidad de exito se toma como q=1-p). Efectivamente, sea

N ∼ Geo

(1− λµ

c

), y

217

X =n∑i=1

Yi

tales que Y1, Y2, ..., Yn son variables aleatorias independientes con distribucion H(y). En-

tonces

Ψ(x) = P (X ≤ x) =∞∑n=0

P (X ≤ x|N = n) (1− p)pn

=∞∑n=0

(1− p)pnH∗(n)

Entonces

1−Ψ(u) = =∞∑n=0

(1− p)pn(1−H∗(n)

)

=∞∑n=0

(1− p)pnH∗(n)

= (1− p)∞∑n=1

pnH∗(n)(u)

=

(1− λµ

c

) ∞∑n=1

(λµ

c

)nH∗(n)(u)

Para utilizar esta formula y obtener aproximaciones de las probabilidades de ruina, la com-

binaremos con el algoritmo de Panjer. En general no es facil calcular las convoluciones de la

funcion de distribucion, H(u), ni tampoco calcular la suma infinita en esta formula. No ob-

stante, pueden llevarse a cabo simulaciones de esta variable aleatoria, calcular la magnitud de

las colas y conocer de manera aproximada la probabilidad de ruina cuando las reclamaciones

tienen una distribucion continua arbitraria. Mostremos esta formula de Pollaczek-Khinchin

para reclamaciones exponenciales, y comparemosla con la formula exacta ya conocida para

218

este caso.

Entonces, supongamos que las reclamaciones tiene distribucion exponencial de parametro α.

Primero veamos que H(u) es nuevamente la funcion de distribucion de una exponencial (α).

H(u) =1

µ

∫ u

0

F (y)dy =11

α

∫ u

0

e−αydy

= α

(y − e−αy

α

) ∣∣∣∣u0

= α

[−e−αu

α+

1

α

]= 1− e−αu

Por lo tanto, H∗(n)(u) se distribuye gamma(n, α), y su distribucion es

H∗(n)(u) =∞∑k=n

e−αu(αu)k

k!

cuya funcion de supervivencia es

H∗(n))

(u) =n−1∑k=0

e−αu(αu)k

k!

Entonces tenemos que

219

∞∑n=1

pnH∗(n)

(u) =∞∑n=1

n−1∑k=0

pne−αu(αu)k

k!

=∞∑k=0

∞∑n=k+1

pne−αu(αu)k

k!

=∞∑k=0

e−αu(αu)k

k!

∞∑n=k+1

pn

=∞∑k=0

e−αu(αu)k

k!pk+1

∞∑n=0

pn

=p

1− p

∞∑k=0

e−αu(αpu)k

k!

=p

1− pe−αueαpu

=p

1− pe−α(1−p)u

continuando con este desarrollo, tenemos entonces que de acuedo a esta formula de Pollaczek-

Khinchin

ϕ(u) = (1− p)∞∑n=1

pnH∗(n)

(u)

= (1− p) p

1− pe−α(1−p)u

= pe−α(1−p)u

=λ

αce−(α−λc )u

que es el modelo de Cremer-Lundgber ya conocido para esta distribucion.

Ejemplo. Utilizaremos R para aproximar las probabilidades de ruina de algunos modelos.

Supongamos que las reclamaciones siguen una distribucion Pareto (5,4), la tasa de intensidad

Poisson es λ = 1 y tasa de primas por unidad de tiempo, c = 30. Ya que los momentos de

220

esta distribucion son de la forma

E(Xk)

=αθk

α− k

en este caso, se pueden implementar las dos aproximaciones que presentamos, ya que esta

distribucion tiene los tres primeros momentos finitos.

Aproximacion de De Vylder

Entonces, el primero, segundo y tercer momento de esta distribucion son

µ = E (X) =θ

α− 1; µ2 = E

(X2)

=2θ2

(α− 2)y µ3 = E

(X3)

=6θ3

(α− 3)

Por lo que los valores para nuestra aproximacion son

α =3µ2

µ3

=

3 ∗ 2θ2

(α− 2)

6θ3

(α− 3)

=(α− 3)

(α− 2) θ

λ =9

2

λµ32

µ23

=

9λ

2

8θ6

(α− 2)3

36θ6

(α− 3)3

= λ(α− 3)3

(α− 2)3

c = c− λµ+3

2

λµ22

µ3

= c− λ θ

(α− 1)+λ (α− 3) θ

(α− 2)2

Utilizando los valores particulares de este ejemplo, que son: α = 5, θ = 4, λ = 2 y c = 12,

tenemos

α = 0.16666667; λ = 0.5925926 y c = 11.7777778

y la aproximacion a la probabilidad de ruina queda como

Ψ(u) ≈ 0.5925926

0.1666667 ∗ 11.7777778e−0.1163522∗u = 0.3018867e−0.1163522∗u

221

0 20 40 60 80 100

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Aproximación de De Vylder

u

Ψ(u

)

Utilizando la aproximacion que se desprende de la formula de Pollaczec-Khinchin. Tenemos

F (x) = 1−(

4

4 + x

)5

⇒ H(x) =1

µ

∫ x

0

1−

(1−

(4

4 + z

)5)dz

= 1 ∗∫ x

0

(4

4 + z

)5

dz

= 1−(

4

4 + x

)4

Es decir, H ∼ Pareto (4, 4). Ademas, tenemos que la “probabilidad de exito” de la geometrica

asociada es

1− λµc = 1− 2∗1

12 = 56

222

Entonces, cocluiremos este ejemplo utilizando R, para construir el modelo agregado subya-

cente.

0 20 40 60 80 100

0.08

0.10

0.12

0.14

0.16

Aprox. Pollaczec−Khinchin

x

Ψ(u

)

223

Reservas

Las reservas para las companıas de seguros han tenido un desarrollo muy considerablemente

en los anos recientes, ocasionado por el crecimiento del mercado de seguros, con procesos

de suscripcion de riesgos (coberturas) cada vez mas complejos. Se han desarrollado nuevos

productos de seguros que se adaptan a las necesidades mas especıficas de la poliza. Ademas,

tambien han surgido reclamaciones latentes que ponen mayores presiones sobre los recur-

sos de la empresa. Los desastres recientes, como las inundaciones en Europa y los ataques

terroristas del 11 de septiembre a los EE.UU., han contribuido a la necesidad de formas

complejas de analisis de la siniestralidad, motivando la revision de los modelos utilizados en

las reservas de siniestros, para garantizar resultados acordes a estos nuevos esquemas.

El pago de las reclamaciones es el primer objetivo de una cıa. de seguros. El asegurado

realiza el pago de la prima para que, a efecto de este pago, la cıa. de seguros acepte la re-

sponsabilidad de hacer un pago en dinero a los asegurados sobre la ocurrencia de un evento

especıfico, dentro del periodo de tiempo estipulado.

En teorıa, la responsabilidad de la aseguradora de pagar una reclamacion cristaliza en el

instante de ocurrencia de la contingencia asegurada. Sin embargo, hay muchos factores

que pueden conducir a retrasos considerables entre la ocurrencia del siniestro y su pago. En

primer lugar, la contingencia asegurada, es posible que no ocurra en un solo instante y puede,

incluso, no reconocerse como un evento exigible de pago, sino hasta muchos anos despues de

haber iniciado. En segundo lugar, la responsabilidad legal de la aseguradora no siempre es

clara, y puede haber retrasos considerables antes de que la companıa de seguros (o tribunal)

decida que existe tal responsabilidad. En tercer lugar, podrıa ser imposible determinar el

monto de los danos hasta que haya transcurrido un periodo de tiempo desde ocurrencia del

evento. En cuarto lugar, estan los retrazos ocurridos dentro de la oficina de la companıa de

seguros, en el registro de las reclamaciones, en el procesamiento del archivo de reclamaciones,

la autorizacion, envıo y cobro del pago de la reclamacion, etc.

La prediccion de los montos de reclamacion no pagados es creciente en seguros de no vida

con corto plazo ya que, por su propia naturaleza, son altamente especulativos. Los detalles

especıficos sobre el metodo para hacer estas predicciones estan contenidas en un estudio

exhaustivo y muy detallado realizado por Taylor (1986). Una caracterıstica comun a to-

224

dos estos metodos es el uso de los registros de reclamaciones actuales y pasadas, dispuestas

en un triangulo de desarrollo de reclamaciones (run-off triangle) para calibrar el modelo de

prediccion propuesto antes de usarlo. Kremer (1982) mostro como el metodo clasico de chain

ladder para la estimacion de las reclamaciones pendientes de pago en seguros generales, esta

fuertemente relacionada con el analisis de varianza de dos vıas. El desarrollo de este capıtulo,

esta basado en el tratamiento estadıstico de las reservas de reclamaciones realizado por Mack

(1991), que se percato de la relacion entre los metodos de estimacion de siniestros ocurrido

pero no declarados (debengados) (IBNR) y los metodos de tarificacion de automoviles. Este

modelo parametrico se implementa actualmente a traves de un modelo lineal generalizado

(GLM) y se aplica a los datos de reclamacion. Nuestro objetivo es explorar a fondo las

caracterısticas de los motodos chain ladder y tecnicas relacionadas.

Calculo de reservasIntroduccion

Definicion de reserva: Monto de recursos necesarios para hacer frente a las obligaciones

asumidas por la companıa de seguros, reconociendo el efecto de interes e inflacion, ası como

los gastos de administracion derivados de la cartera, considerando la participacion de rease-

guro.

Objetivo de la reserva: Dotar a la companıa de los recursos necesarios para realizar el pago

de las obligaciones que le son reclamadas y los gastos en que incurre por la administracion

de su cartera.

Principales Reservas Tecnicas a Constituir

• De Riesgos en Curso (RRC)

• De Obligaciones Pendientes de Cumplir (OPC), o de Siniestros Pendientes

• De Siniestros Ocurridos No Reportados (SONR) (IBNR)

• Reservas Tecnicas Especiales (Catastroficas)

Metodos de Calculo

225

• Chain Ladder

• Bornhuetter-Ferguson

• Siniestralidad Esperada

• Metodos Estocasticos

• Chain Ladder estocastico

• Bootstrap

• Mack

Fundamentos tecnicos

Se debe registrar ante la C.N.S.F. a traves de una Nota Tecnica que exponga el metodo

actuarial con el cual se realizara la valuacion y que contenga:

• Formulas y procedimientos.

• Hipotesis: Demograficas, financieras y cualquier otra que se pretenda utilizar.

• Informacion estadıstica (datos).

• Opinion del auditor externo actuarial.

• Firma del actuario certificado responsable de la elaboracion y valuacion.

226

Reservas de Riesgos en Curso (RRC)

Porcion de las primas equivalente a la fraccion no devengada de las mismas a la fecha de

valuacion, despues de descontar el costo de adquisicion (VP de las obligaciones y costos

futuros (administracion), incluyendo sus margenes).

Se divide en dos grandes grupos:

Seguros a Corto Plazo (EPA No.24), y

Seguros de Largo Plazo (EPA No.45)

a) RRC a Corto Plazo, elementos para el calculo:

Sobre la cartera en vigor por el tiempo que le falta por transcurrir (no devengada) incluyendo

la tasa tecnica de interes, considerar los costos futuros de: Siniestralidad y otras obligaciones

contractuales, margen para desviaciones, Costos de Administracion, Adquisicion y el margen

de Utilidad.

Basarse en informacion suficiente y confiable, sobre la cartera de riesgos en curso y las vari-

ables que se utilizaron para determinar la prima de tarifa suficiente.

Reconocer la participacion del Reaseguro

Generalmente se supone uniformidad del riesgo a lo largo de la vigencia, por lo que el riesgo,

en un momento dado, es proporcional al tiempo que falta para concluir la vigencia.

Efecto de Reaseguro

Para considerar el efecto de la existencia de contratos proporcionales de reaseguro, en la

formula de calculo se tendrıan que sustituir los conceptos de Prima de Riesgo y Prima Emi-

tida No Devengada, por Prima de Riesgo No Devengada de Retencion y Prima Emitida No

Devengada de Retencion, respectivamente. En el caso en que las obligaciones del reasegu-

rador no sean paralelas a las de la cedente (seguros proporcionales con porcentajes distintos

de participacion dependiendo del nivel de siniestralidad, recorte de colas, etc.). Se deberan

valuar las obligaciones atendiendo lo dispuesto en los oficios circulares OS-10-06, OS-13-06

4EPA= Estandares de Practica Actuarial Adoptados por el CONAC, anexo 7.7.1 de la Circular Unica5EPA= Estandares de Practica Actuarial Adoptados por el CONAC, anexo 7.7.1 de la Circular Unica

227

(Automoviles), OS-12-06 (Terremoto) y a la tecnica actuarial aplicable al caso.

Reservas de Obligaciones Pendientes de Cumplir (OPC), o de Siniestros Pen-

dientes

Equivale al saldo de siniestros en tramite, Estimacion Inicial (±) Ajustes-Pagos

Siniestros

• En Tramite

• En Litigio

• Siniestros Ocurridos pero no reportados

• Siniestros Pendientes de Valuacion

• Gastos de ajuste asignados al siniestro

Dividendos

• Experiencia en Siniestralidad

• Experiencia propia

• Participacion en Rendimientos Financieros

Definicion

La Reserva de Siniestros Pendientes en Tramite se constituye como un medio para hacer

frente a las obligaciones economicas derivadas de la ocurrencia de un siniestro notificado a

la companıa que, a la fecha de valuacion, todavıa no ha sido pagado o totalmente pagado.

Se asume que la reclamacion se registra en tiempo y forma, ası como con la mejor estimacion

posible del costo del siniestro.

Mecanica de Operacion

Esta reserva se constituye en el momento en el que la Aseguradora tiene conocimiento de la

ocurrencia de un siniestro y se reserva una estimacion inicial del monto del dano de acuerdo

228

a los bienes y coberturas amparadas en la poliza.

Se realizan ajustes a esta reserva cuando se tiene una estimacion mas detallada de los danos

o se determinan perdidas como consecuencia directa del siniestro. (“Ajustes de mas” cuando

el monto de las obligaciones aumenta y “ajustes de menos” cuando disminuye).

Normalmente el proceso de ajuste se realiza a traves de especialistas llamados ajustadores,

cuya funcion es emitir un juicio sobre la situacion de los bienes danados y traducir el nivel del

dano a montos de efectivo. En el caso de ramos como automoviles, el ajustador se auxilia con

herramientas de computo como “Valua Data” que permite, mediante sofisticados sistemas

de costeo, determinar un monto mas objetivo para el siniestro.

Por ultimo, esta reserva se elimina cuando se pagan los montos reservados o se declara el

siniestro como improcedente.

Algunas veces el asegurado y la companıa no llegan a un acuerdo sobre la indemnizacion de

un siniestro en cuyo caso el asegurado recurre a la Comision Nacional para la Proteccion

y Defensa de los Usuarios de Servicios Financieros, y esta ultima ordena a la companıa la

constitucion de una reserva, con sus respectivos intereses por mora, en lo que se determina

la situacion judicial de las partes. (ver Art. 135 Bis, 136 LGISMS).

Siniestros Ocurridos No-reportados (IBNR / SONR)

Estimacion de siniestros que ya ocurrieron a la fecha de valuacion, pero que no han sido

reportados por distintas razones, o que el costo estimado inicialmente resulte menor al real,

o que aun no han sido valuados (se usa metodo estadıstico actuarial basado en la experiencia

particular de la companıa para su estimacion).

Los siniestros ocurridos pero no reportados, son aquellos eventos que se producen en un

intervalo de tiempo, durante la vigencia de la poliza, pero que se conocen con posterioridad

a la fecha de cierre o de valuacion de un periodo contable. El objeto de la reserva por sinie-

stros ocurridos y no reportados es crear provisiones para cubrir los siniestros que no han sido

reportados a una fecha determinada, pero que ya ocurrieron.

La reserva por Siniestros Ocurridos pero no Reportados, tiene como objeto hacer una pro-

vision de recursos que sirvan para enfentrar el pago de aquellas reclamaciones que, habiendo

229

ocurrido en determinado ano, sean reportadas en anos futuros. El pago retrazado de los

siniestros puede producir perdidas en ejercicios donde no corresponde, distorsionando los

resultados de ese ano. Asimismo, el efecto de retrazo en las reclamaciones produce una

distorsion en los estados financieros de una institucion, ya que puede reflejar una aparente

utilidad anual, que puede deberse al efecto del pago retrazado de reclamaciones. El pro-

ceso de las reclamaciones atrazadas que provienen de un determinado ano de origen, se

distribuyen en un periodo al que se le llama periodo de desarrollo.

Objetivos

• Permite constituir los recursos para que estos esten disponibles al momento en que esos

siniestros sean reclamados

• Evita reconocer una utilidad no ganada.

Los siniestros ocurridos y no reportados, se constituyen por:

• Siniestros ocurridos pero aun no reportados (Incurred but not yet reported IBNYR), los

cuales se caracterizan porque el acaecimiento del siniestro no ha sido reportado aun, debido

a retrasos de tipo administrativo o de la clase de contingencia cubierta (IBNR Puro).

• Siniestros ocurridos pero no reportados completamente (Incurred but not enough reported

IBNER), son aquellos ya ocurridos y reportados, pero cuyo costo esta incompleto o no ha

sido determinado con precision (SPV).

Pueden valuarse en conjunto o por separado.

Metodos de Calculo

• Chain Ladder

• Bornhuetter-Ferguson

• Siniestralidad Esperada

• Metodos Estocasticos

• Chain Ladder estocastico

230

• Bootstrap

• Mack

231

Estructura general de la informacion para el calculo de la provision para siniestros pendientes

Calculo de Triangulos de Desarrollo

El analisis del comportamiento de los siniestros ocurridos no reportados, puede hacerse or-

denando los siniestros en un arreglo matricial que consiste en asignar a cada renglon, el ano

de origen y a cada columna, el ano de desarrollo, de manera que cualquier siniestro puede

ser clasificado en este arreglo matricial de acuerdo al ano de origen del cual proviene y al

ano de desarrollo en el que fue reclamado. A este arreglo de clasificacion de siniestros se le

conoce como triangulo de desarrollo de siniestros.

Tiangulo de desarrollo de siniestros

Ano Desarrollo por ano1 2 · · · j · · · n-1 n

1 C11 C12 · · · C1j · · · C1,n−1 C1n

2 C21 C22 · · · C2j · · · C2,n−1

......

......

...

i Ci1 Ci2 · · · Ci,n+1−i

n-1 Cn−1,1 Cn−1,2

n Cn1

Las Cij representan monto de reclamacion o numero de reclamaciones, registrado durante

el periodo i (periodo de ocurrencia) y reportado en el momento de desarrollo j (periodo de

reclamo).

Marco estructural del problema de las reservas para siniestros

Supongamos que tenemos N reclamaciones dentro de un periodo de tiempo fijo con fechas

de reporte T1, ..., TN (Supongamos que estan ordenadas, Ti ≤ Ti+1 ∀ i). Consideremos la

i-esima reclamacion. Entonces, Ti = Ti,0, Ti,1, ..., Ti,Ni denota la secuencia de fechas en las

que alguna situacion ocurre con esta reclamacion, por ejemplo, al tiempo Tij se realiza un

pago, se estima un ajuste de esta reclamacion o se recaba nueva informacion sobre ella. Ti,Ni

denota a liquidacion definitiva de la reclamacion. Suponga que Ti,Ni+k = ∞ para k ≥ 1.

Especificaremos los eventos que ocurren al tiempo Ti,j como

232

Xi,j =

Pago al tiempo Ti,j para la reclamacion i

0, Si no hay pago al tiempo Ti,j

Ii,j =

Nueva informacion disponible sobre la reclamacion i, al tiempo Ti,j

∅, Si no hay nueva informacion al tiempo Ti,j

Definimos Xi,j = 0, y Ii,j = 0 si Ti,j =∞.

Con esta estructura se puede definir varios procesos interesantes; ademas, el problema de

reserva para reclamaciones, se puede dividir en varios sub problemas.

• Proceso de pago de la i-esima reclamacion. (Ti,j, Xi,j)j≥0 define el siguiente proceso de

pagos acumulados para la reclamacion i

Ci(t) =∑

j:Ti,j≤t

Xi,j

con Ci(t) = 0 para t < Ti. La cantidad maxima demandada por la reclamacion i es

Ci (∞) = Ci (Ti,Ni) =∑j≥0

Xi,j

La reserva total de reclamacion para la reclamacion i en el momento t para los pasivos fu-

turos (pendientes de reclamacion al tiempo t), esta dada por

Ri (t) = Ci (∞)− Ci (t) =∑

j:Ti,j>t

Xi,j

• El proceso de informacion de la reclamacion i esta dado por (Ti,j, Ii,j)j≥0

• El proceso de liquidacion definitiva de la reclamacion i esta dado por (Ti,j, Ii,j, Xi,j)j≥0

Denotaremos los procesos agregados para todas las reclamaciones por

233

C(t) =N∑i=1

Ci(t)

R(t) =N∑i=1

Ri(t)

C(t) denota todos los pagos hasta el tiempo t para todas las N reclamaciones, y R(t) denota

los pagos de siniestros pendientes (reservas) al tiempo t para estas N reclamaciones.

Consideremos ahora el problema de reservas como un problema de prediccion. Sea

FNt = σ

((Ti,j, Ii,j, Xi,j)i≥0,j≥0 |Ti,j ≤ t

)la informacion disponible al tiempo t. Esta sigma-algebra se obtiene a partir de la infor-

macion disponible en el momento t del proceso de liquidacion de siniestros.

A menudo se dispone de informacion exogena adicional, εt al tiempo t (cambio de la practica

jurıdica, inflacion, informacion del mercado, etc.) Por lo tanto se define la informacion que

la companıa de seguros tiene en el tiempo t por

F = σ(FNt ⊗ εt

)Hay que estimar las distribuciones condicionales

µt = P (C (∞) |Ft)

Con los primeros dos momentos

Mt = E [C (∞) |Ft]

Vt = V [C (∞) |Ft]

234

Propiedades fundamentales del proceso de reservas

Ya que

C (∞) = C(t) +R(t)

tenemos que

Mt = E [C (∞) |Ft]

= E [C(t) +R(t)|Ft]

= E [C(t)|Ft] + E [R(t)|Ft]

= C(t) + E [R(t)|Ft]

ademas

Vt = V [C (∞) |Ft]

= V [C(t) +R(t)|Ft]

= V [R(t)|Ft]

Lema 1 Mt es una Ft −martingala. Esto es, para t > s se tiene que

E [Mt|Ft] = Ms, c.s.

Dem. Trivial.

Lema 2 El proceso de varianza Vt es una Ft−supermartingala. Esto es, para t > s se tiene

que

E [Vt|Ft] ≤ Vs, c.s.

Dem.

235

E [Vt|Ft] = E [V (C(∞)|Ft) |Fs]

= E[E[C2 (∞) |Ft

]|Fs

]− E

[E [C (∞) |Ft]

2 |Fs

]≤ E

[C2 (∞) |Fs]− E [E [C (∞) |Ft] |Fs]

2 (Desigualdad de Jensen : E [g (X)] ≥ g (E [X]))

= V (C (∞) |Fs) = Vs

Consideremos u > t dos tiempos del proceso. Definimos el incremento de t a u como

M(t, u) = Mu −Mt

Entonces tenemos c.s. que

E [M(u, t)M(u,∞)|Ft] = E [M(u, t)E [M(u,∞)|Fu] |Ft]

= E [M(u, t) (E [C(∞)|Fu]−Mu) |Ft] = 0

que implica que M(t, u) y M(u,∞) no estan correlacionadas, que es la propiedad bien cono-

cida de las martingalas de incrementos no correlacionados.

Esta primera aproximacion al problema de reservas de reclamaciones utiliza la representacion

integral de martingalas, que conduce al “proceso de inovacion” que determina Mt al actu-

alizar Ft.

• Esta teorıa es bien conocida.

• Se tiene poca idea sobre el proceso de actualizacion.

• No se tienen suficientes datos desde el punto de vista estadıstico.

Segunda aproximacion al problema de reservas. Para t < u tenemos que Ft ⊂ Fu. Ya que

Mt es una Ft −martingala, se tiene que

E [M(t, u)|Ft] = 0 c.s

Definamos el incremento de pagos entre t y u como

236

X(t, u) = C(u)− C(t)

Por lo tanto tenemos que

M(t, u) = Mu −Mt

= E [C(∞)|Fu]− E [C(∞)|Ft]

= C(u) + E [R(u)|Fu]− (C(t) + E [R(t)|Ft])

= X(t, u) + E [R(u)|Fu]− E [C(u)− C(t) +R(u)|Ft]

= X(t, u)− E [X(t, u)|Ft] + E [R(u)|Fu]− E [R(u)|Ft]

que esta compuesta por los siguientes dos terminos

1.- Error de prediccion para los pagos en el plazo (t, t+ 1], (u = t+ 1)

X(t, t+ 1)− E [X(t, t+ 1)|Ft]

2.- Error de prediccion de las reservas de R(t+ 1) cuando se ha actualizado la informacion

E [R(t+ 1)|Ft+1]− E [R(t+ 1)|Ft]

Reclamaciones conocidas y desconocidas

Definido el concepto de reclamaciones IBNyR (ocurridas pero aun no reportados). El pro-

ceso siguiente cuenta el numero de siniestros reportados

Nt =∑i≥1

1Ti≤t

Podemos dividir la demanda total y las reservas en el momento t, respecto a la situacion de

si se tiene una reclamacion reportada o una catalogada como IBNyR por

R(t) =∑i

Ri(t) · 1Ti≤t +∑i

Ri(t) · 1Ti>t

con

237

∑i

Ri(t) · 1Ti≤t reservas para las reclamaciones reportadas al tiempo t

∑i

Ri(t) · 1Ti>t reservas al tiempo t, para reclamaciones IBNyR

Y definimos

Rrept = E

[∑i

Ri(t) · 1Ti≤t∣∣∣Ft

]= E

[Nt∑i=1

Ri(t)∣∣∣Ft

],

RIBNyRt = E

[∑i

Ri(t) · 1Ti>t∣∣∣Ft

]= E

[N∑

i=Nt+1

Ri(t)∣∣∣Ft

]

con N el total aleatorio de reclamaciones. Es facil ver que

Rrept =

∑i≤Nt

E[Ri(t)

∣∣∣Ft

]

RIBNyRt = E

[N∑

i=Nt+1

Ri(t)∣∣∣Ft

]

Rrept denota los pagos futuros esperados al tiempo t, de los siniestros reportados. Conocido

como “el mejor estimador de las reservas tiempo t, para siniestros reportados”. RIBNyRt son

los pagos futuros esperados al tiempo t, para reclamaciones IBNyR (o “el mejor estimador

de reservas al tiempo t, para reclamaciones IBNyR”).

En conclusion, estas dos expresiones muestran que las reservas para siniestros reportados y

la reservas para siniestros IBNyR son de muy diferente naturaleza:

i) Las reservas para siniestros reportados se deben determinar de forma individual, es decir,

con base en uno solo de los siniestros. A menudo se tiene suficiente informacion sobre reporte

de reclamaciones, para realizar una estimacion de las reclamaciones individuales.

ii) Las reservas para siniestros IBNyR no pueden desagregarse debido al hecho de que N no

se conoce al momento t. Ademas, no tenemos informacion sobre reclamaciones individuales.

Esto muestra que las reservas IBNyR deben determinarse con base en un colectivo de recla-

maciones.

238

Desafortunadamente, la mayorıa de los metodos clasicos de reservas no distinguen entre

reclamaciones reportadas y reclamaciones IBNyR, es decir, que estiman las reservas de sinie-

stros de la misma manera en ambas casos. En este contexto, tengo que decepcionarlos un

poco, porque la mayorıa de los metodos que presentaremos tampoco hacen esta distincion.

Terminologıa y notacion el triangulo de desarrollo de siniestros

En este apartado presentamos la terminologıa y notacion clasica de las resrevas de recla-

maciones. En la mayorıa de los casos la reclamaciones pendientes se estiman a traves de

llamado triangulo de desarrollo de reclamaciones, que clasifica las reclamaciones sobre dos

ejes de tiempo. Usualmente denotados como

i = ano del evento, ano de ocurrencia,

j = ano de desarrollo, periodo de desarrollo

Para fines ilustrativos se asume que Xi,j denota todos los pagos en el periodo de desarrollo,

j, de reclamaciones que ocurrieron en el ano, i, es decir, lo que corresponde al incremento

del pago de reclamaciones ocurridas en el ano i, realizadas en el ejercicio contable i+ j.

En un triangulo de desarrollo, las reclamaciones por ano suelen estar en la lınea vertical,

mientras que los periodos de desarrollo estan en la lınea horizontal. En general las tablas

de desarrollo se dividen en dos partes; la parte superior del triangulo / trapezoide, donde

tenemos observaciones y el triangulo inferior donde debemos estimar la los pagos pendientes.

En las diagonales siempre vemos los ejercicios contables. De ahı que los datos de las recla-

maciones tienen la siguiente estructura:

239

Tiangulo de desarrollo de siniestros

Ano evento Desarrollo por ano0 1 · · · j · · · J-1 J

0

1

... Datos observados de las v.a. Ci,j Xi,j

i Predicciones Ci,j, Xi,j

I-1

I

Los datos se pueden mostrar en forma acumulativa o en forma no acumulativa (incremental).

Los datos incrementales se denotan por Xi,j y datos acumulados dados por

Ci,j =

j∑k=0

Xi,k

Los datos incrementales, Xi,j, puede denotar los pagos incrementales en la celda (i, j), el

numero de siniestros reportados con retraso de reporte j y ano de ocurrencia i, o el cambio

en la cantidad de reclamaciones reportado en la celda (i, j). Para los datos acumulados Ci,j,

generalmente se utiliza el termino de pagos acumulados, o el numero total de reclamaciones

reportadas o reclamaciones incurridas (para siniestros declarados acumulativos). Ci,∞ se

conoce comunmente como monto total de la demanda o carga total de la reclamacion i o el

numero total de reclamaciones en el ano i.

Xi,j : Pagos incrementales⇔ Ci,j : Pagos acumulados

Xi,j : Num. de reclamaciones reportadas con retrazo j ⇔ Ci,j : Num. total de reclamaciones reportadas

Xi,j : Cambio en la cantidad de reclamaciones reportadas⇔ Ci,j : Siniestros incurridos

Usualmente denotamos las observaciones por DI = Xi,j : i+ j ≤ I en la parte superior del

trapezoide, y D cI = Xi,j : i+ j > I que necesitan estimarse.

Los pagos en un solo ejercicio contable estan dados por

240

Xk =∑i+j=k

Xi,j

que son los pagos en la (k+1)-esima diagonal.

Si Xi,j denota pagos incrementales, entonces las reservas de reclamacion para el ano i al

tiempo j estan dada por

Ri,j =∞∑

k=j+1

Xi,k = Ci,∞ − Ci,j

Ri,j se conoce tambien como la reserva para siniestros. Se trata fundamentalmente de la

cantidad que tenemos que estimar (triangulo inferior) para que junto con los ultimos pagos,

Ci,j, obtengamos toda la carga de las reclamaciones (monto total) para los eventos del ano i.

Teniendo en cuenta los modelos de reservas, es decir, modelos que estiman las reclamaciones

totales, existen diversas posibilidades para estas.

• Para datos acumulativos o datos incrementales

• Para datos de pagos de reclamaciones incurridas

• Para la division de los datos en reclamaciones pequenas y grandes

• Numero de reclamaciones y promedio de reclamaciones

• Etc.

Por lo general, diferentes metodos y diferentes formas de agregarcion de los datos, conducen

a resultados muy diferentes. Solo un actuario con basta experiencia en reservas, es capaz

de decidir cual es una forma adecuada de estimacion para las obligaciones futuras en un

conjunto especıfico de datos.

241

Metodo Chain-Ladder (libre de distribucion)

El modelo de Chain-Ladder es, probablemente, la tecnica para calcular reservas mas popular.

Proporcionaremos diferentes derivaciones para este metodo. Iniciaremos con la derivacion

libre de distribucion del Chain-Ladder.

La literatura clasica actuarial, generalmente refiere al metodo de Chain-Ladder como un algo-

ritmo puramente computacional para estimar las reservas de siniestros. Fue mucho mas tarde

que los actuarios empezaron a considerar modelos estocasticos para desarrollar o generar el

algoritmo de este metodo. El primero que utilizo un modelo completamente estocastico para

el metodo Chain-Ladder fue Mack (1993). Publicando, en 1993, uno de los artıculos mas

famosos para calculo de reservas con errores estandar en el modelo Chain-Ladder.

Entonces, este algoritmo se basa en los pagos acumulados

Ci,j =

j∑k=0

Xi,k

Esto es, sumamos los pagos incrementales, Xi,k, k ≥ 0, para una ano de ocurrencia del sinie-

stro fijo, i, y, como son reclamaciones acumuladas, en ultima instancia obtenemos Ci,J−1 = Si,

con Si el total de reclamaciones que corresponden al ano de ocurrencia del siniestro, i.

La idea detras del algoritmo Chain-Ladder (CL) es que todos los anos de ocurrencia de

siniestros se comportan de manera similar y, para reclamaciones acumuladas, se tiene que

• Supuestos del modelo Chain-Ladder

Existen f0, f1, ..., fJ−1 > 0 factores de desarrollo tales que para toda 0 ≤ i ≤ I y toda

0 ≤ j ≤ J se tiene que

E [Ci,j|Ci,0, Ci,1, ..., Ci,j−1] = E [Ci,j|Ci,j−1] = fj−1Ci,j−1

e independencia entre los anos de eventos (entre los renglones del triangulo de desarrollo).

Observaciones

242

• Se supone independencia entre los anos de ocurrencia. Mas adelante veremos que este

supuesto se hace en casi todos los metodos. Esto significa que ya se han eliminado los efec-

tos del ano de contabilidad en los datos.

• Ademas, podemos hacer supuestos mas fuertes sobre las sucesiones Ci,0, Ci,1, ... asumiendo

que forman una cadena de Markov. Por lo tanto, tenemos que

Ci,j ·j−1∏l=0

f−1l

forman una martingala para j ≥ 0.

• Los factores fj reciben el nombre de factores de desarrollo o factores Chain-Ladder. Son

el objetivo de interes central en el metodo Chain-Ladder.

Lema. Sea DI = Xi,j : i+ j ≤ I el conjunto de observaciones (trapecio superior). Bajo el

modelo Chain-Ladder, tenemos que para toda I − J + 1 ≤ i ≤ I ocurre que

E [Ci,J |DI ] = E [Ci,J |Ci,I−i] = Ci,I−i · fI−i · · · fJ−1

Dem. Este es un ejercicio de esperanza condicional

E [Ci,J |Ci,I−i] = E [Ci,J |DI ]

= E [E [Ci,J |Ci,J−1] |DI ]

= E [fJ−1Ci,J−1|DI ]

= fJ−1E [Ci,J−1|DI ]

Si iteramos este procedimiento hasta llegar a la diagonal i+ j = I obtenemos la afirmacion.

Este lema proporciona un algoritmo para estimar el valor esperado de la demanda final,

Ci,J , dadas las observaciones DI , de la siguiente manera. Para cualquier ano de ocurrencia

i, elegir la ultima observacion en la diagonal, esto es Ci,I−i, y multiplicar sucesivamente esta

observacion por los factores de desarrollo fI−i, ..., fJ−1.

243

Por otro lado, para factores de desarrollo conocidos, fj, estimamos los siniestros esperados

pendientes de pago del ano i basado en DI , por

E [Ci,J |DI ]− Ci,J−1 = Ci,I−i · (fI−i · · · fJ−1 − 1)

que corresponde al “mejor estimador”’ de las reservas del ano i al tiempo I (basado en la in-

formacion DI). Desafortunadamente, en la mayorıa de las aplicaciones practicas los factores

Chain-Ladder no se conocen y necesitan estimarse. Los factores Chain-Ladder se estiman por

fj−1 =

I−j∑k=0

Ck,j

I−j∑k=0

Ck,j−1

=

I−j∑i=1

Ci,j∑I−jn=1Cn,j

Ci,jCi,j−1

=

I−j∑i=1

wijfij

Entonces, la estimacion (CL) de E [Ci,j|DI ] esta dada por

CCLi,j = E [Ci,j|DI ] = Ci,I−1 · fI−i · · · fj−1, para i+ j > I

Definamos ahora Bk = Ci,j : i+ j ≤ I, 0 ≤ j ≤ k ⊆ DI . Observese que BJ = DI , que es

un subconjunto de todas las observaciones al tiempo I.

Lemma Bajo el supuesto para el modelo Chain-Ladder, tenemos que

a) fj, dado Bj, es un estimador insesgado de fj. Esto es: E[fj∣∣BJ

]= fj

b) fj es (incondicionalmente) insesgado para fj. Esto es: E[fj

]= fj

c) f0, ..., fJ−1 nos estan correlacionados. Esto es: E[f0, ..., fJ−1

]= E

[f0

]· · ·E

[fJ−1

]d CCL

i,J , dado Ci,I−1 es un estimador insesgado de E [Ci,J |DI ] = E [Ci,J |Ci,I−i]. Esto es:

E[CCLi,J

∣∣∣CI−i] = E[Ci,J

∣∣∣DI

], y

e CCLi,J es (incondicionalmente) insesgado para E [Ci,J ]. Esto es: E

[CCLi,J

]= E [Ci,J ]

244

En principio, el hecho de que los factores estimados Chain-Ladder, fj, no esten correlaciona-

dos, parece sorprendente, ya que dependen de los mismos datos.

Dem. lema

a) Para demostrar este primer inciso tenemos

E[fj−1|Bj−1

]=

I−j∑k=0

E [Ck,j|Bj−1]

I−j∑k=0

Ck,j−1

=

I−j∑k=0

Ck,j−1 · fj−1

I−j∑k=0

Ck,j−1

= fj−1

que inmediatamente implica la condicion de insesgamiento.

b) Se sigue inmediatamente de a).

c) Para j < k tenemos

E[fj fk

]= E

[E[fj fk|Bk

]]= E

[fjE

[fk|Bk

]]= E

[fjfk

]= fjfk

d) Para demostrar este iniciso

E[CCLi,J |Ci,I−i

]= E

[Ci,I−i · fI−i · · · fJ−1|Ci,I−i

]= E

[Ci,I−i · fI−i · · · fJ−1E

[fJ−1|BJ−1

]|Ci,I−i

]= fJ−1E

[CCLi,J−1|Ci,I−i

]iterando este procedimiento obtenemos

E[CCLi,J |Ci,I−i

]= Ci,I−i · fI−iE · · · fJ−1 = E [Ci,J |DI ]

e) es consecuencia inmediata de d).

Observaciones

245

Hemos demostrado que que los estimadores fj no estan correlacionados, pero no son indepen-

dientes. De hecho, los cuadrados de dos estimadores sucesivos fj y fj+1 estan correlacionados

negativamente.

Obserevese que el inciso d de este lemma, demuestra que podemos obtener estimadores ins-

esgados del mejor estimador de las reservas E [Ci,J |DI ].

246

El metodo de Bornhuetter-Ferguson

El metodo Bornhuetter-Ferguson es, en general, un metodo muy robusto, ya que no toma en

cuenta los valores extremos en las observaciones. El metodo se remonta a 1972 en el artıculo

de Bornhuetter-Ferguson titulado “el actuario e IBNR”. El metodo Bornhuetter-Ferguson

se suele entender como un algoritmo puro para estimacion de reservas (esta es tambien la

forma en que fue publicado por ellos).

Ventajas del metodo BF

• Mayor estabilidad que los metodos de desarrollo

• Refleja en cierta medida los datos mas recientes

• Permite suavizar los resultados

• El metodo de desarrollo tiende a subestimar cuando el ocurrido es bajo y a so-

breestimar si es alto

• Permite incorporar los cambios en la estructura de las tarifas

• Permite estimar el IBNR cuando la informacion es escasa

• Permite incorporar los cambios en la estructura de las tarifas

Desventajas

• Requiere la estimacion de la siniestralidad esperada inicial

• Requiere la estimacion de porcentajes de desarrollo de siniestros

Hay varios posibilidades de definir un modelo estocastico subyacente apropiado que motive

el metodo BF. Los siguientes supuestos son faciles de cumplir:

Supuestos (1) sobre el metodo Bornhuetter-Ferguson

• Los diferentes anos de ocurrencia de los eventos, son independientes.

247

• Existen parametros µ0, µ1, ..., µI > 0 y patrones β0, β1, ..., βJ > 0 con βJ = 1, tales que,

para toda i ∈ 1, 2, ..., I, j ∈ 1, 2, ..., J − 1 y k ∈ 1, 2, ..., J − j, se tiene que

E [Ci,0] = µi · β0,

E [Ci,j+k] = Ci,j + µi · (βj+k − βj)

Entonces, tenemos que E [Ci,j] = µiβj y E [Ci,J ] = µiβJ = µi · 1 = µi. La sucesion βjjdenota los patrones de desarrollo de las reclamaciones. Si Ci,j son los pagos acumulados,

entonces βj es el patron de flujo de caja acumulado esperado (the expected cumulative cash-

flow pattern) (tambien llamado patron de pagos). Tal patron se utiliza a menudo, cuando

se necesita construir reservas market-consistent/discounted, donde valores de tiempo difieren

en el tiempo. Entonces, estos supuestos implican los siguientes

Supuestos (2) sobre el metodo Bornhuetter-Ferguson

• Los diferentes anos de ocurrencia de los eventos, son independientes.

• Existen parametros µ0, µ1, ..., µI > 0 y patrones β0, β1, ..., βJ > 0 con βJ = 1, tales que,

para toda i ∈ 1, 2, ..., I, j ∈ 1, 2, ..., J − 1, se tiene que

E [Ci,j] = µi · βj

La idea detras del metodo BF es que todos los anos de ocurrencia de eventos i ∈ 1, ..., I

tienen un comportamiento similar, con un comportamiento de los pagos de reclamaciones

Ci,j ≈ µj · βj

para cierta informacion inicial µi y cierto patron de desarrollo βjj=0,...,J−1 normalizadas∑J−1j=0 βj = 1.

El valor inicial µi debe reflejar el total esperado de del ejercicio contable i, E [Ci,J−1]. Se

supone que este valor inicial se da de manera externa, de acuerdo a la opinion de expertos

que, en teorıa, no deberıa basarse en DI .

248

Regularmente, estos son los supuestos (2) para generar el modelo BF, no obstante, solo con

estos supuestos, podemos tener ciertas dificultades. Observemos que

E [Ci,J |DI ] = E [Ci,J |Ci,0, ..., Ci,I−1]

= E [Ci,J − Ci,I−i + Ci,I−i|Ci,0, ..., Ci,I−1]

= Ci,I−i + E [Ci,J − Ci,I−i|Ci,0, ..., Ci,I−1]

Si no tenemos supuestos adicionales sobre la estructura de dependencia entre los incremen-

tos en las reclamaciones, no sabremos que hacer exactamente con el ultimo termino de la

expresion anterior. Si supieramos que estos incrementos Ci,J − Ci,I−i son independientes de

Ci,0, ..., Ci,I−1, entonces esto implicarıa que

E [Ci,J |DI ] = E [Ci,J |Ci,0, ..., Ci,I−1]

= Ci,I−i + E [Ci,J − Ci,I−i] por independencia

= Ci,I−i + E [Ci,J ]− E [Ci,I−i]

= Ci,I−i + βJµi − βI−iµi

= Ci,I−i + (1− βI−i)µi

que tambien se desprende de los supuestos del modelo.

Estimador del modelo BF

Ci,J = E [Ci,J |DI ] = Ci,I−i +(

1− βI−i)· µi

I − J + 1 ≤ i ≤ I. Con βI−i un estimador de βI−i y µi un estimado inicial para E [Ci,J ]. Ya

que µi es una estimacion basada en la opinion de expertos y, probablemente, independiente

de la informacion observada DI , lo unico que hay que estimar en este modelo son los factores

o patrones de desarrollo βj.

Comparacion de los estimadores BF y Chain-Ladder

De acuerdo a los supuestos sobre el modelo Chain-Ladder tenemos que

249

E [Ci,j] = E [E [Ci,j|Ci,j−1]] = fj−1E [Ci,j−1] = E [Ci,0]

j−1∏k=0

fk

entonces

E [Ci,J ] = E [Ci,0]J−1∏k=0

fk

que implica

E [Ci,j] =

j−1∏k=0

fk

J−1∏k=0

f−1k E [Ci,J ]

=J−1∏k=j

f−1k E [Ci,J ]

Si comparamos esta expresion con la correspondiente del metodo BF, E [Ci,j] = µiβj, encon-

tramos que

J−1∏k=j

f−1k “juega el papel de” βj

ya queJ−1∏k=j

f−1k corresponde a la proporcion ya pagada de µi = E [Ci,J ] despues de j periodos

de desarrollo en el metodo Chain-Ladder. Note que esta correspondencia entre las β′j y el

producto de los factores de desarrollo se obtiene unicamente mediante los supuestos (2) y no

con (1) ya que estos no son implicados por los supuestos Chain-Ladder ni viceversa.

Estimacion de los patrones de desarrollo

Ya comentamos que, dada la forma como se estima µi en el modelo BF, solo debemos ocu-

parnos de la estimacion de los patrones de desarrollo, es decir, de las βj. En vista del metodo

de CL, se define la siguiente los estimadores del patron de desarrollo:

250

γCLj =J−2∏k=j

1

fCLk=

∏j−1k=0 f

CLk∏J−2

k=0 fCLk

cociente que refleja, como ya dijimos, la proporcion ya pagada despues de los primeros j

periodos de desarrollo de acuerdo a los patrones de desarrollo del metodo Chain-Ladder.

Por lo que obtenemos los estimadores

βCL0 = γCL0 ,

βCLj = γCLj − γCLj−1, j = 1, 2, ..., J − 2

βCLJ−1 = 1− γCLJ−2

Una vez definidos estos estimadores, entonces predecimos la ultima reclamacion (o recla-

macion total) Ci,J−1 para i+ J − 1 > I en el metodo BF, por

CBFi,J−1 = Ci,I−i + µi

J−1∑j=I−i+1

βCLj = Ci,I−i + µi(1− γCLI−i

)

Las reservas al tiempo I para los anos de ocurrencia del siniestro i > I− (J − 1) estan dadas

por

RBFi = CBF

i,J−1 − Ci,I−i = µi

J−1∑j=I−i+1

βCLj = µi(1− γCLI−i

)

y agregado sobre todos los anos de ocurrencia de los siniestros, predecimos el total de pasivos

de perdida de las ultimas reclamaciones (reserva total), por

RBF =∑

i>I−(J−1)

RBFi

Concluiremos este apartado con una comparacion entre los valores predichos de los metodos

CL y BF. Entonces, reescribimos las predicciones realizadas mediante el metodo CL, para

i+ J − 1 > I, de la siguiente manera

251

CCLi,J−1 = Ci,I−i + Ci,I−i

J−2∏j=I−i

fCLj

(1−

J−2∏j=I−i

1

fCLj

)

de donde obtenemos las relaciones

CCLi,J−1 = Ci,I−i +

(1− βCLI−i

)CCLi,J−1,

CBFi,J−1 = Ci,I−i +

(1− βCLI−i

)µi

Por lo tanto, observamos que tenemos la misma estructura. La unica diferencia es que en el

metodo BF utilizamos la estimacion inicial externa, µi, para la demanda final y en el metodo

de la estimacion CL esta estimacion se basa en CCLi,J−1. Por lo tanto, tenemos dos posiciones

complementarias para realizar las predicciones.

252

Breve introduccion a los Modelos Lineales Generalizados (MLG)

Los modelos lineales son modelos estadısticos que sirven para cuantificar el impacto o influ-

encia que tienen las llamadas variables explicativas (caracterısticas de los sujetos o entidades

que conforman el modelo) y la llamada variable de respuesta. El mas sencillo de estos mod-

elos es el de regresion lineal simple, cuya extension natural es el modelo de regresion lineal

multiple. Este es, probablemente, el modelo lineal mas conocido en la literatura estadıstica.

La caracterıstica esencial de este modelo es que la variable de respuesta se asume con dis-

tribucion continua y su componente aleatorio se supone con distribucion normal, distribucion

que hereda la variable de respuesta.

En la modelacion estadıstica muchas veces se tienen variables de respuesta que no son con-

tinuas, por ejemplo la condicion de enfermo y no enfermo de un paciente; la preferencia

electoral de un sujeto en un marco de tres partidos polıticos en competencia; el numero

de reclamaciones en una poliza de seguros, etc. Para este tipo de respuestas, el modelo

de regresion lineal usual no es, de ninguna manera, una opcion adecuada, por lo que es

necesario modificar o ampliar este modelo para contemplar esta clase de respuestas. De

esta necesidad surgen los llamados Modelos lineales Generalizados(MLG) en los que existen

diversas estructuras de su compontente aleatorio, que se adecuan de mejor manera a las

caracterısticas de escala de medicion de sus respuetas. Estos modelos estan caracterizados

por tres componentes

• Componente aleatorio (parte aleatoria): µ = E (y|X) = y

• Un predictor lineal (parte sistematica): η = X′β

• Una funcion liga: g (µ)

El componente aleatorio tiene que ver con la distribucion que se le asocia a la respuesta

(la parte aleatoria) del modelo, misma que es sugerida por la escala de medicion de esta

respuesta. En los MLG, esta distribucion debe ser un miembro de la familia exponencial.

El predictor lineal lo constituye la parte determinıstica del modelo, es decir, los datos y los

parametros. Finalmente, la liga es una funcion que liga o asocia una transformacion de la

variable de respuesta con el predictor lineal. La estructura de este modelo es

253

g (µ) = X′β = β0 + β1X1 + β2X2 + · · ·+ βpXp o

µ = g−1(X′β)

Los miembros de la familia exponencial que determinan los principales MLG son

Funcion liga g (µ) Liga canonica para

Identica µ Normal

log ln (µ) Poisson

Potencia µp

Gamma (p = −1)

Gaussiana Inversa (p = −2)

Logit ln

(µ

1− µ

)Binomial

Ya que la escala de la variable de respuesta determina el modelo lineal generalizado que deba

de ajustarse, observamos que

• El modelo de regresion lineal estandar es un MLG con liga identica. Su respuesta es una

variable continua con rango en R.

• Si la respuesta es una variable de conteo, entonces el MLG correspondiente es el modelo

de regresion Poisson

• Si la variable de respuesta tiene solo dos categorıas, el MLG correspondiente es el modelo

de regresion logıstica o modelo logit. La liga de este modelo es el logaritmo del momio de

respuesta, y recibe el nombre de logit.

• Si la variable de respuesta es continua y positiva, los probables MLG son la regresion

Gamma o la regresion Gaussiana Inversa.

La familia exponencial

La familia de densidades de probabilidad mas importante en estadıstica es la llamada familia

exponencial. Cuya definicion es

254

Definicion: Familia exponencial. Sean y1, ..., yn variables aleatorias independientes con

funcion de densidad o de probabilidad, que puede escribirse como

f (yi; θi, φ) = exp

yiθi − b (θi)

ai (φ)+ c (yi, φ)

con

• θi es el parametro natural o canonico

• φ es un parametro de escala o dispersion

• ai (·) , b (·) y c (·) funciones especıficas para cada elemento de esta familia

∗ Si φ es conocido, este es un modelo de la familia exponencial lineal

∗ Si φ es desconocido, es un modelo de dispersion exponencial

Para algunos de los modelos que especificamos en la tabla anterior tenemos

Normal

• Distribucion N (µ, σ2)

• E (y) = µ

• Liga g(µ) = µ (identidad)

• b(θ) = θ2

2(θ = µ)

• a(φ) = 1

Poisson(λ)

• E (y) = λ

• Liga g(λ) = ln (λ)

• b(θ) = eθ (θ = λ)

• a(φ) = 1

Binomial(n,π)

• E (y) = nπ

255

• Liga g(π) = ln(

π1−π

)• b(θ) = n log(1 + eθ) (θ = π)

• a(φ) = 1

etc.

Estimacion y pruebas de hipotesis

La estimacion de los parametros que determinan cada modelo: el vector de parametros

asociados a las covariables, β, y el parametro de escala o dispersion, φ, se estiman por

maxima verosimilitud. Y los estimadores de sus varianzas se calculan por medio de la inversa

de la llamada Matriz de Informacion Observada de Fisher. Por esta razon las inferencias

para este modelo son inferencias asintoticas (excepto para el modelo estandar de regresion

lineal).

La prueba de hipotesis mas importante es sobre el modelo global

H0 : β = 0, ⇒ β1 = β2 = · · · = βp = 0 vs. Ha : βi 6= 0 p.a. i = 1, 2, ..., p

Si en un modelo concreto no rechazamos la hipotesis nula (H0), implicarıa que ninguna de

nuestras covariables es importante para explicar o predecir la respuesta, lo que llevarıa a

desechar el modelo. Si los modelos son propuestos por un sujeto que conoce su area de

aplicacion, generalmente esta hipotesis se rechaza “en favor de la hipotesis alternativa”. En-

tonces, como se enuncia en esta ultima hipotesis, lo unico que sabrıamos es que almenos

una covariable es importante para explicar la respuesta, y; pero esta hipotesis no deter-

mina cual(es) ni cuantas. Por lo que es necesario realizar pruebas individuales sobre cada

parametro (equivalentemente cada covariable) en el modelo. Las pruebas son del tipo

H0 : βi = 0 vs. Ha : βi 6= 0 i = 1, 2, ..., p

El estadıstico asociado para realizar esta prueba es una t de Student. En concreto se hace

con la estadıstica

256

βi√var

(βi

) a∼ tn−p

En el caso del modelo de regresion lineal, y dada la normalidad de su componente aleatorio,

esta estadıstica es

βi√var

(βi

) ∼ N(0, 1), o bien

β2i

var(βi

) ∼ χ2(1)

como habıamos dicho, para este modelo las inferencias son exactas.

La devianza

Una forma de determinar el ajuste del modelo construido es comparandolo contra el modelo

que produce el mejor ajuste posible. En estos modelos, el mejor ajuste se logra cuando el

modelo tiene tantos parametros como observaciones y se le conoce como modelo saturado.

Este modelo lo que hace es reproducir los valores observados, por lo que su ajuste es perfecto.

Si denotamos por ˜(β) el valor de la log-verosimilitud del modelo saturado y por (β) el

correspondiente valor del modelo propuesto, se define la devianza (algunas veces llamada

devianza residual) a la cantidad

D =2[˜(β)− (β)

]

que puede verse como una medida de distancia entre el modelo propuesto y el saturado.

• Cuando el modelo propuesto provee un buen ajuste, se espera que (β) este cercana a˜(β) . Es claro que ya que esta ultima cantidad es el supremo de todas las log-verosimiltudes

257

posibles, (β) no puede ser mayor que ella. Un valor ”grande” de esta devianza indica un

pobre ajuste del modelo propuesto.

• Suponiendo que el modelo es correcto y n es grande, la distribucion asintotica de esta

devianza es una Ji-cuadrada. En concreto

Da∼ χ2

(n−p)

por lo que el valor esperado de esta devianza es n-p.

En los modelos lineales generalizados esta devianza es

D =2φ[˜(β)− (β)

]

Comparacion de modelos

En la modelacion estadıstica estandar por lo general se tienen varios modelos que ajustan

de forma adecuada a nuestra informacion, por lo tanto, es necesario tener una forma para

compararlos y elegir el mejor entre ellos. Para hacer esta comparacion es necesario que los

modelos esten anidados, i.e., que uno de ellos sea un submodelo del otro.

Supongamos que tenemos dos modelos M0 y M1 con total de parametros p0 y p1, respec-

tivamente y p1 > p0 (lo que implica que M0 esta anidado en M1). Entonces, la menera de

comparar estos modelos es

2φ [` (M1)− `(M0)]a∼ χ2

(p1−p0)

con ` (M1) y `(M0) las respectivas log-verosimilitudes de los correspondientes modelos. Si

esta diferencia es estadısticamente significativa, podemos afirmar que las variables que tiene

M1 pero que no estan en M0 sirven para mejorar el ajuste del modelo. Por el contrario,

si esta diferencia no es estadısticamente significativa, entonces querra decir que el ajuste de

ambos modelos es similar, por lo tanto, atendiendo al principio de parsimonia, preferimos el

que tiene menos parametros, en este caso, M0.

258

Modelo Poisson de reservas

Terminaremos esta seccion con el modelo de Poisson, que se utiliza principalmente para el

numero de reclamaciones. Lo interesante en el modelo de Poisson es que conduce a las mis-

mas reservas del modelo Chain-Ladder. Fue Mack (1991), quien demostro que las reservas

Chain-Ladder son reservas producidas por un proceso de maxima verosimilitud del modelo

de Poisson.

Supuestos modelo Poisson

Existen parametros µ0, µ1, ..., µI > 0 y patrones γ0, γ1, ..., γJ > 0, tales que los valores incre-

mentales Xi,j son independientes y se distribuyen Poisson con

E [Xi,j] = µi · γj

para toda i ≤ I y j ≤ J , y∑J

j=0 γj = 1.

Es claro que si Xi,j son Poisson, entonces el numero total de reclamaciones acumuladas ocur-

ridas en el periodo i, Ci,J , tambien es Poisson, con

E [Ci,J ] = µi

Ya que µi es un parametro que representa el numero esperado de reclamaciones ocurridas en

el ano i, mientras que j define el patron de flujo de caja esperado en los diferentes periodos

de desarrollo j. Por otra parte tenemos que

E [Xi,j]

E [Xi,0]=γjγ0

que es independiente de i.

Lema. El modelo Poisson satisface los supuestos (1) del metodo Bornhuetter-Ferguson.

Dem

La independencia de los diferentes anos de reclamacion se sigue de la independencia de los

conteos Xi,j. Ademas, tenemos que E [Ci,0] = E [Xi,0] = µi · β0 con β0 = γ0, y

259

E [Ci,j+k|Ci,0, ..., Ci,j] = Ci,j +k∑`=1

E [Xi,j+`|Ci,0, ..., Ci,j]

= Ci,j + µi ·k∑`=1

γj+`

= Ci,j + µi · (βj+k − βj)

con βj =∑j

`=0 γ`. Que concluye la demostracion.

Para estimar los parametros (µi)i, (γj)j existen diferentes metodos, una posibilidad es utilizar

estimadores maximo verosımiles. La funcion de verosimilitud, obviamente con la informacion

observada, DI = Ci,j; i+ j ≤ I, j ≤ J, esta dada por

L (µ0, ..., µI , γ0, ...γj; DI) =∏i+j≤I

(e−µiγj · (µiγj)

Xi,j

Xi,j!

)

Como es costumbre, maximizaremos la log-verosimilitud asociada mediante el conjunto de

las ecuaciones de verosimilitud, desprendidas de igualar a cero las derivadas parciales sobre

cada uno de los, I + J + 2, total de parametros desconocidos µi y γj. En DI obtenemos que

(I−i)∧J∑j=0

µiγj =

(I−i)∧J∑j=0

Xi,j = Ci,(I−i)∧J

I−i∑j=0

µiγj =I−i∑j=0

Xi,j

para toda i ∈ 0, ..., I toda j ∈ 0, ..., J bajo la restriccion de que∑γj = 1. Este sistema

tiene solucion unica y proporciona los estimadores mle de µi y γj.

Con estos estimadores, el modelo Poisson para reservas se estima por

260

XPoii,j = E [Xi,j] = µiγj,

CPoii,j = E [Ci,J |DI ] = Ci,I−i +

J∑j=I−i+1

XPoii,j

Observese que

CPoii,j = Ci,I−i +

(1−

I−i∑j=0

γj

)· µi

por lo que los estimadores Poisson tiene la misma forma que los BF. Sin embargo, aquı

debemos estimar µi y γj mediante los datos.

261

Modelo Poisson sobredisperso

Ya hemos comentado que en datos reales, es muy comun que el modelo Poisson resulte sobre-

disperso, i.e., que φ >> 1. Definamos el modelo Poisson sobredisperso para calcular reservas

a partir de un triangulo de desarrollo.

Supuestos sobre el modelo Poisson sobredisperso

Existen parametros µ0, µ1, ..., µI > 0, patrones γ0, γ1, ..., γJ > 0 y φ, tales que los valores

incrementales Xi,j son independientes con distribucion

Xi,j

φ∼ Pois

(µiγjφ

)

Observe que

E [Xi,j] = E(φPois

(µiγjφ

))= φ · µiγj

φ= µiγj

V [Xi,j] = V(φPois

(µiγjφ

))= φ2 · µiγj

φ= φµiγj

que hace evidente el nombre del modelo: Poisson sobredisperso.

Varianzas y errores estandar de los estimadores Chain-Ladder

En el modelo Chain-Ladder solo presentamos la estimacion para la demanda esperada final,

por supuesto, tambien le gustarıa saber, la precision que tiene este estimador. Para medir

la precision de esta estimacion, consideramos los segundos momentos.

Supongamos que tenemos una variable aleatoria X y un conjunto de observaciones, D .

Supongamos que X es un estimador D −medible de E [X|D ].

Def. Error cuadratico medio de prediccion condicional. El error cuadratico medio de

prediccion condicional del etimador X esta definido por

MSEPX|D = E[(X −X

)2|D]

262

El MSEP condicional es una medida de distancia L2, que puede descomponerse en dos partes

MSEPX|D

(X)

= V (X) +(X − E [X|D ]

)2La primera de ellas llamada proceso de varianza (error estocastico), es decir, la varianza

inerherente al modelo estocastico (totalmente aleatorio que no puede eliminarse), y la se-

gunda conocida como el error de estimacion del parametro, que refleja la incertidumbre en

la estimacion de los parametros y de la esperanza, respectivamente. En general, este error

de estimacion se hace mas pequeno cuanto mas observaciones tenemos. Pero hay que tener

cuidado, en muchas situaciones practicas este error no desaparece por completo, ya que se

tratar de predecir los valores futuros con la ayuda de la informacion pasada, por lo que un

ligero cambio del modelo a traves del tiempo puede provocar muchos y serios problemas.

Reservas Tecnicas Especiales (Catastroficas)

Provisiones especiales determinadas y ordenadas por la S.H.C.P. para complementar y re-

forzar las reservas tradicionales o para corregir y prevenir desviaciones o insuficiencias de

caracter tecnico o financiero.

Riesgos Catastroficos

Fondo acumulativo que se integra con una parte de las primas de ciertas coberturas para

cubrir eventos catastroficos como los terremotos.

Contingencia/Prevision (Margen de Seguridad para desviaciones adversas)

Fondo acumulativo que se integra con una parte de las primas para cubrir desviaciones en

la “siniestralidad”.

263

Documents

Teoria Del Riesgo 2014-2