Upload
angel-estrada
View
50
Download
3
Embed Size (px)
DESCRIPTION
Materia teoria del riesgo
Citation preview
Teorıa del Riesgo
Introduccion
La actividad aseguradora esta difundida en el mundo entero, son de uso corriente los seguros
de automoviles, incendios, robos, vida, etc. Esta actividad responde a la incertidumbre que
sienten los individuos ante ciertas situaciones que pueden provocar distintos danos, tanto
materiales como personales. El miedo a la posibilidad de que ocurran dichos acontecimien-
tos se intenta eliminar mediante la compra de un seguro que compensara al asegurado en
el caso de producirse algun dano. La base de esta actividad radica en la existencia de un
equilibrio entre la prestacion que hara la companıa de seguros y la contraprestacion que ella
recibe del asegurado.
Algunos antecedentes historicos
En sus inicios, el seguro era una forma de solidaridad entre los miembros de una comunidad.
Consistıa en un fondo o bolsa en la que todas las personas depositaban parte de su dinero.
Con el capital que acumulaban entre todos, se pagaban los danos que sufrıan algunos de
ellos. Por ejemplo: Antiguamente existıa en algunos puertos la costumbre de que todos los
armadores de barcos que hacıan una determinada lınea, aportaban a un fondo comun una
cantidad de dinero en funcion del numero de navıos que poseıan. Aquellos armadores cuyos
barcos se hundıan o eran saqueados por piratas, recibıan una compensacion economica proce-
dente del fondo comun para poder adquirir otro barco para continuar su actividad laboral.
La Ciencia Actuarial tal como hoy se concibe comienza en el siglo XVII. Durante este periodo
las necesidades comerciales dieron lugar a operaciones que acarreaban un interes compuesto;
los seguros marıtimos eran algo habitual y el calculo de las rentas vitalicias comenzaba a
aparecer. Este tipo de operaciones requerıa algo mas que el juicio intuitivo y comercial de
los primeros aseguradores. Uno de los pilares de la Ciencia Actuarial fue la Teorıa de Prob-
abilidades, las bases del analisis estadıstico en el seguro fueron establecidas por Pascal en
1654 en colaboracion con el tambien matematico Pierre de Fermat.
Otro de los pilares es el concepto de tablas de vida, basadas en las investigaciones sobre la
mortalidad. Las primeras tablas son debidas a John Graunt (1662). En 1693 Edmund Hal-
1
ley, matematico ingles, publico un famoso documento describiendo la construccion de tablas
de vida completas a partir de la hipotesis de estacionariedad de la poblacion, ası como el
metodo de valoracion de las rentas vitalicias, que es, en esencia, el mismo que se utiliza hoy
en dıa. Las tablas de Halley se utilizaron por la mayorıa de las companıas de seguros inglesas
creadas durante el siglo XVIII.
Es en el presente siglo, la Ciencia Actuarial se enriquece con las aportaciones de las matematicas
de los seguros no vida, la teorıa estadıstico-matematica de la estabilidad y la moderna teorıa
de la decision.
Algunos terminos del seguro
La actividad aseguradora, como cualquier otra que supone una especialidad, tiene su propia
forma de expresarse (jerga). Vamos a ver una serie de terminos de uso frecuente:
Seguro: Entendido como contrato, es el convenio entre dos partes, la companıa o entidad
aseguradora por una parte y el contratante por otra, mediante la cual la primera se compro-
mete a cubrir economicamente la perdida o dano que el asegurado puede sufrir durante la
vigencia del contrato. La obligacion del asegurado es pagar, a la firma del contrato, el precio
del seguro total o parcialmente.
Riesgo: Es la posibilidad de perdida o dano. El hombre desde que nace vive con la constante
amenaza de enfermedad, accidente, muerte, etc. De la misma forma sus propiedades pueden
sufrir incendios, robos, etc.
Siniestro: Es la concrecion del riesgo. Por ejemplo, un incendio que destruye una fabrica, el
robo de mercancıas, muerte en un accidente, etc.
Asegurador : Es la persona jurıdica que suscribe el compromiso de ofrecer la proteccion in-
demnizatoria cuando se produce el siniestro. Un asegurador es una sociedad anonima, una
mutua de seguros, cooperativa, etc. Para que una empresa pueda ejercer legalmente como
aseguradora debe tener una autorizacion que concede la autoridad correspondiente.
Asegurado: Es la persona titular del interes asegurado. Es quien sufre el perjuicio economico
en sus bienes, en caso de que ocurra el siniestro, o la persona cuya vida o integridad fısica se
asegura y, por lo tanto, quien percibira la indemnizacion en caso de que un siniestro afectase
al objeto asegurado (excepto en el caso de seguros de vida, en que recibe la indemnizacion
2
en caso de muerte el beneficiario).
Beneficiario: Cuando se asegura la vida o la integridad fısica de una persona puede desig-
narse a otra persona para que reciba las indemnizaciones, que es el beneficiario.
Poliza: Es el documento en que se plasma el contrato de seguro. Tiene dos caracterısticas
que la hacen especialmente importante:
• Es la prueba de que el contrato existe; y
• Es la normativa que regula las relaciones entre los contratantes.
Consta basicamente de tres partes:
• Condiciones generales: son una serie de clausulas iguales para todos los contratos de la
misma modalidad. Incluyen deberes y derechos, forma de atencion del siniestro, riesgos cu-
biertos, etc.
• Condiciones particulares: son las que individualizan cada contrato de seguro. Incluyen
datos personales del asegurado, caracterısticas del riesgo que se asegura (incendio, acci-
dente, robo...), importe de la prima, etc.
• Condiciones especiales: aparecen en algunas polizas y suponen una adaptacion para deter-
minados casos especiales. Por ejemplo, hay unas condiciones generales para todos los seguros
de robo, pero dadas las caracterısticas que pueden tener el seguro de robo a joyerıas, se crean
para este tipo de establecimientos unas condiciones especiales.
Prima: Es el precio del seguro. Es la cantidad de dinero que el asegurado paga para que,
a cambio, el asegurador pague en caso de siniestro. La prima es por lo general para una
vigencia anual del seguro, aunque excepcionalmente puede pagarse por una sola vez, para la
cobertura de varios anos (prima unica en seguros de vida) y tambien por una vigencia menor
de un ano (prima a corto plazo, como en el caso de un viaje, transporte de mercancıas, etc.)
Clases de primas:
• Prima de riesgo: llamada tambien prima pura, natural, matematica o estadıstica, es la
cantidad necesaria y suficiente que el asegurador debe percibir para cubrir el riesgo. Nace
del concepto de esperanza matematica como precio justo de una eventualidad.
3
• Prima de tarifa: tambien llamada prima comercial, es la prima de riesgo mas los recargos.
Estos recargos son de varios tipos:
-Gastos de administracion: sueldos, alquileres de locales, etc.
-Gastos de adquisicion: formado basicamente por la comision que se le paga al corredor o
intermediario.
-Margen de beneficio: son los recargos asignados a la utilidad razonable del asegurador.
• Prima de facturacion: es la prima de tarifa mas los recargos de ley, como son los impuestos
sobre la prima, los derechos de emision y otros agregados y ordenados por disposiciones
legales, ası como los intereses de financiacion en el caso de que el asegurador otorgue facili-
dades de pago fraccionado de la prima anual.
Clasificacion de los seguros
Los seguros se pueden clasificar en dos grandes grupos: seguros de vida y seguros de no vida.
Un seguro de vida es aquel en el que una entidad aseguradora se compromete mediante el
cobro de una prima unica o periodica a pagar la prestacion convenida en el caso de que se
cumpla la circunstancia prevista en el contrato: que la persona o personas fallezcan o sobre-
vivan a un periodo de tiempo determinado. Existen distintas modalidades de seguros de vida:
• Seguros de vida en caso de muerte.
• Seguros de vida en caso de vida.
• Seguros de vida mixtos.
Los seguros de no vida van dirigidos a cubrir danos materiales que ocasionan perdidas
economicas. Los mas frecuentes son los de automoviles, incendios, robos, etc. En este
caso, las prestaciones o indemnizaciones estan en funcion de la cuantıa del dano.
Objetivos de las Matematicas Actuariales
El objetivo de las Matematicas Actuariales lo constituye el estudio cuantitativo de las op-
eraciones de seguro (y financieras en general) a fin de optimizar las decisiones sobre las mag-
4
nitudes que intervienen en ellas, teniendo en cuanta que las citadas operaciones las realiza
un ente asegurador (o financiero) que desarrolla su actividad en un entorno economico-social.
Forma parte del objetivo de la Matematica Actuarial:
• El calculo de primas, reservas, valores garantizados, etc., en las operaciones de seguros de
vida.
• El analisis cuantitativo de los sistemas actuariales en los seguros colectivos, sociales y
planes de pensiones.
• El estudio de los problemas de tarifacion y reservas tecnicas en los seguros no vida.
• La determinacion de las magnitudes de estabilidad del ente asegurador y el analisis de su
solvencia.
Riesgo
Definicion: Se entiende por riesgo, en la literatura actuarial, no solo al objeto asegurado,
sino tambien, a la posibilidad de producirse, por azar, un acontecimiento que origine una
perdida economica o patrimonial.
Un individuo puede adoptar distintas conductas a la hora de enfrentarse al riesgo, una par-
ticularmente asociada al seguro, es la de prevencion y prevision, que conlleva a actitudes de
ahorro y de aseguramiento (como mecanismo para reducir la incertidumbre del asegurado a
traves del pago de la prima). Este ultimo constituye la forma mas adecuada y tecnicamente
eficaz para cubrir riesgos.
Caracterısticas del riesgo
Las caracterısticas esenciales del riesgo, para ser objeto del seguro, son las siguientes:
• Incierto y aleatorio: debe haber una relativa incertidumbre, pues el conocimiento de su
existencia real harıa desaparecer la aleatoriedad, principio basico del seguro. En algunos
casos, se conoce con certeza que ocurrira, pero se ignora cuando, como en la cobertura de
los seguros de vida.
• Factibilidad : Debe existir posibilidad de que riesgo se consume. Tal posibilidad tiene
5
dos situaciones extremas: Por un lado, la frecuencia y del otro la imposibilidad. La excesiva
ocurrencia del riesgo y su materializacion en siniestro atenta contra la aleatoriedad del suceso
cubierto, ası, una gran frecuencia de riesgos, por ejemplo, en la cobertura automoviles, aparte
de resultar muy costoso para la empresa aseguradora, exigira que las primas de seguros nece-
sariamente se incrementen. Del mismo modo, la imposibilidad de que el riesgo se manifieste
en siniestro, situarıa a la empresa aseguradora en una posicion de presentar una cobertura
absurda que harıa inviable la comercializacion del producto, como ofrecer una cobertura de
danos por nevadas, en un paıs tropical.
• Fortuito: El riesgo debe provenir de un acto o acontecimiento ajeno a la voluntad hu-
mana de producirlo. No obstante, es suceptible de indemnizacion el siniestro producido a
consecuencia de actos realizados por un tercero, ajeno al vınculo contractual que une a la
aseguradora con el asegurado. Aunque en tal caso, la entidad aseguradora se reserva el
derecho de ejercitar las acciones pertinentes contra el responsable del dano (principio de
subrogacion), como tambien es posible indemnizar el siniestro causado intencionadamente
por el asegurado, siempre que los danos se hayan producido por una sutuacion de fuerza
mayor o para evitar otros mas graves.
• Monto economico: La realizacion del riesgo debe producir una necesidad traducible a un
valor economico, que se satisface con la indemnizacion correspondiente.
6
EL PROCESO DE MODELACION DEL RIESGO
Recordemos que un modelo matematico, estadıstico, actuarial, o de cualquier naturaleza, es
una representacion simplificada de algun fenomeno real. En un contexto actuarial especıfico,
proponer un modelo para describir una situacion, se basa en la experiencia y conocimiento
que el Actuario tenga del fenomeno bajo estudio, ası como de la informacion historica que
posea sobre el. El modelo debe proveer un balance entre simplicidad (parsimonia) y con-
formidad (ajuste) con la informacion disponible para elaborarlo.
El proceso de modelado
Sin pretender ser exhaustivos, podemos reconocer ciertos pasos a seguir para modelar una
situacion actuarial. Es importante remarcar que, aunque los pasos se enumeren ordenada-
mente, la dinamica del proceso permite regresar a algunos puntos anteriores, para su mejor
especificacion. Finalmente, hay que recordar que modelar tiene algo de tecnica y mucho de
arte.
PASOS
1.- Uno o mas modelos pueden seleccionarse de acuerdo al conocimiento inicial y experiencia
que posea el analista, ademas de la naturaleza de la informacion disponible.
2.- Ajustar el modelo con la informacion disponible.
3.- Realizar pruebas de diagnostico del modelo, para determinar si su ajuste es adecuado
para los datos utilizados.
4.- Considerar, a partir del paso anterior, la posibilidad de utilizar otros modelos.
5.- Si existen varios modelos que pueden ser adecuados, entonces, es necesario compararlos
con la finalidad de decidir por alguno de ellos.
6.- Finalmente, el modelo seleccionado puede adaptarse para aplicarlo en el futuro. Esto
puede involucrar algun ajuste de los parametros, previendo cambios por alguna caracterıstica
exogena, como inflacion, cambios del mercado asegurado o cualquiera otra.
7
Distribuciones asociadas al monto de una perdida
Cuando se manifiesta un riesgo, la Cıa aseguradora tiene la obligacion de cubrir el monto
de la reclamacion que genera tal evento. Dadas las caracterısticas del riesgo, este monto es
claramente aleatorio, por lo que es suceptible de modelarse a traves de una variable aleatoria,
X. Dado que el monto del siniestro es una cantidad no negativa, los modelos probabilısticos
asociados deben contemplar esta y otras caracterısticas. Concretamente
• La variable asociada al monto de reclamacion es mayor o igual que cero (no negativa)
X : [0,∞)→ [0,∞)
• La distribucion de esta variable es generalmente sesgada a la derecha
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Forma común de la distribución del monto de pérdida
x
y=f(
x)
• La distribucion puede ser de colas pesadas lo que podrıa implicar el uso de distribuciones
para valores extremos en su modelacion.
Entonces, dadas estas caracterısticas de los montos asociados a un riesgo, es necesario iden-
tificar las familias de modelos (densidades y/o distribuciones) mas adecuados para su mod-
8
elacion, recordando que deben ser modelos con soporte en los reales no negativos.
Definicion 1. Una familia de distribuciones parametrica es un conjunto de distribuciones
en donde cada miembro esta determinado por uno o varios valores fijos y finitos, llamados
parametros (de ahı el nombre parametrica).
Principales familias parametricas para modelar el monto
de riesgo
Familia de distribuciones exponencial
La distribucion exponencial es un modelo apropiado para los montos, ya que cumple con los
requicitos para su modelacion; no obstante, esta distribucion tiene colas ligeras por lo que
no resultarıa adecuada si el seguro genera una gran proporcion de reclamaciones con montos
muy grandes. Las caracterısticas de esta v.a. son
• f(x; θ) = θe−θx, θ > 0, x ≥ 0
• E (X) =1
θ; V (X) =
1
θ2; MX(t) =
(θ
θ − t
), que existe si t < θ.
• θ es un parametro de escala.
9
0 1 2 3 4 5
0.1
0.2
0.3
0.4
0.5
Diversas formas de la distribución Exponencial
x
Exp
onen
cial
theta= 0.5theta= 0.3theta= 0.2theta= 0.1
Familia de distribuciones Gamma
La distribucion Gamma es una de las distribuciones mas populares para modelar variables
aleatorias con soporte no negativo. Ya que esta distribucion tiene colas ligeras, puede usarse
para modelar datos en los que no ocurran muchas reclamaciones con valores grandes. Se
dice que X v.a. tiene distribucion Gamma si su funcion de densidad es
f(x;α, θ) =θαxα−1e−θx
Γ(α), x ≥ 0, α ≥ 0, θ ≥ 0
con Γ(·) la funcion Gamma definida como
Γ(z) =
∫ ∞0
e−ttz−1dt
Las caracterısticas de la distribucion Gamma son
• E (X) =α
θ; V (X) =
α
θ2; MX(t) =
(θ
θ − t
)α, t < θ
10
E (Xr) =Γ(α + r)
θrΓ(r)
• α es un parametro de forma y θ es de escala.
• La distribucion exponencial es un caso particular de la Gamma. En concreto, es una
Gamma(1, θ).
0 10 20 30 40 50
0.00
0.05
0.10
0.15
0.20
0.25
Diversas formas de la distribución Gamma
x
Gam
ma
alpha= 10 , beta= 0.5alpha= 20 , beta= 0.5alpha= 30 , beta= 0.5alpha= 40 , beta= 0.5alpha= 50 , beta= 0.5alpha= 60 , beta= 0.5
0 5 10 15 20 25
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Diversas formas de la distribución Gamma
x
Gam
ma
alpha= 10 , beta= 0.1alpha= 10 , beta= 0.2alpha= 10 , beta= 0.3alpha= 10 , beta= 0.4alpha= 10 , beta= 0.5alpha= 10 , beta= 0.6
Familia de distribuciones Log-Normal
Uno de los modelo mas usados para ajustar datos del monto de reclamacion de un siniestro,
es la distribucion log − normal(µ, σ2). Esta distribucion es asimetrica con cola derecha pe-
sada (mas pesada que la exponencial y Gamma, pero no de las mas pesadas), lo que permite
acumular una mayor densidad de probabilidad en esta cola. Por lo tanto, puede utilizarse
para modelar siniestros que generen grandes montos de reclamacion con una proporcion rel-
ativamente alta.
Esta distribucion guarda una estrecha relacion con la Normal. De hecho, una variable aleato-
ria se distribuye Log-normal, si el logaritmo natural de ella, se distribuye Normal, es decir
11
X ∼ log − normal(µ, σ2), si Ln(X) ∼ N(µ, σ2)
La funcion de densidad de esta variable aleatoria es
f(x;µ, σ2) =1√
2πσ2xe−
12σ2
(ln(x)−µ)2 , x > 0, µ ∈ R, σ2 ∈ R+
Algunas caracterısticas de esta distribucion son
• E (X) = eµ+σ2
2 ; V (X) = e2µ+σ2(eσ
2 − 1)
; E (Xr) = erµ+r2σ2
2 (momentos de orden r=1,2,...)
• Pese a su relacion con la normal, ninguno de los parametros es de localizacion ni de escala.
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Diversas formas de la distribución log−normal
x
log−
norm
al mu= 0 , sigma= 1mu= 0.5 , sigma= 1mu= 0.7 , sigma= 1mu= 1 , sigma= 1mu= 1.5 , sigma= 1mu= 2 , sigma= 1
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
Diversas formas de la distribución log−normal
x
log−
norm
al
m= 0 , sigma= 1m= 0 , sigma= 0.9m= 0 , sigma= 0.8m= 0 , sigma= 0.7m= 0 , sigma= 0.6m= 0 , sigma= 0.5
Familia de distribuciones Weibull
La distribucion Weibull puede considerarse como una generalizacion de la exponencial. En
este caso, se incorpora un parametro de forma, lo que permite mayor flexibilidad sobre la
forma que posea la distribucion de los datos, y se conserva el parametro de escala de la
12
exponencial. En general, es una distribucion con colas mas pesadas que la Gamma y la
log-normal, pero aun no de las mas pesadas, por lo que puede ser un modelo adecuado para
los montos de reclamacion que ocurren con una moderadamente alta probabilidad.
Se dice que X v.a. tiene una distribucion Weibull(α, θ), si tiene una funcion de densidad
dada por
f(x) =α
θ
(xθ
)α−1exp
−(xθ
)α, x > 0, α > 0, θ > 0
con α parametro de forma y θ parametro de escala. Observese que si α = 1 la Weibull se
convierte en una Exponencial(θ).
Sus caracterısticas son
• E (X) = θΓ
(1 +
1
α
); V (X) = θ2
[Γ
(2 +
2
α
)− Γ2
(1 +
1
α
)]; MX(t) = θtΓ
(1 +
t
α
)
0.0 0.5 1.0 1.5 2.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Diversas formas de la distribución Weibull
x
Wei
bull
k= 0.5 , lambda= 1k= 1 , lambda= 1k= 1.5 , lambda= 1k= 3 , lambda= 1k= 5 , lambda= 1k= 7 , lambda= 1
0.0 0.5 1.0 1.5 2.0
02
46
8
Distribución Weibull con diferentes parámetros de escala
x
Wei
bull
k= 2 , lambda= 1k= 2 , lambda= 0.8k= 2 , lambda= 0.6k= 2 , lambda= 0.4k= 2 , lambda= 0.2k= 2 , lambda= 0.1
13
Familia de distribuciones Pareto
La distribucion Pareto es una distribucion con cola derecha aun mas pesada que la Log-
normal y la Weibull, por lo que resultara de gran utilidad para modelar siniestros que generen
reclamaciones muy grandes con altas frecuencias. Esta distribucion surge al considerar que
la probabilidad de que una v.a., X, tome un valor superior a un valor determinado, x, tiene
la forma funcional
P (X > x) =
(θ
x
)α, x ≥ θ, α > 0
entonces, la funcion de distribucion de la Pareto es
F (x) = 1− P (X > x) = 1−(θ
x
)α
con funcion de densidad dada por
f(x;α, θ) = F′(x) =
αθα
xα+1, x ≥ θ, α > 0, θ > 0
Algunas de sus caracterısticas son
• E (X) =αθ
(α− 1); V (X) =
αθ2
(α− 2)(α− 1)2; E (Xr) =
αθr
(α− r), α > r, r = 1, 2, ...
• α es un parametro de forma y θ de escala.
14
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Diversas formas de la distribución Pareto
x
Par
eto
alpha= 1 , theta= 5alpha= 2 , theta= 5alpha= 3 , theta= 5alpha= 4 , theta= 5alpha= 5 , theta= 5alpha= 6 , theta= 5
0 2 4 6 8 10
0.0
0.5
1.0
1.5
2.0
Diversas formas de la distribución Pareto
x
Par
eto
alpha= 3 , theta= 100alpha= 3 , theta= 120alpha= 3 , theta= 140alpha= 3 , theta= 160alpha= 3 , theta= 180alpha= 3 , theta= 200
Familia de distribuciones Pareto de segundo tipo
La distribucion Pareto de segundo tipo es simplemente la distribucion Pareto de primer tipo
trasladada al origen. Concretamente, si X tiene distribucion Pareto de primer tipo, entonces
Y = X − θ tiene distribucion Pareto de segundo tipo. Con funcion de densidad
f(x;α, θ) =αθα
(x+ θ)α+1 , x ≥ 0, α > 0, θ > 0
Caracterısticas de esta distribucion
E (X) =θ
(α− 1); Var (X) =
αθ2
(α− 2) (α− 1)2; E(Xr) =
θrΓ (r + 1) Γ (α− r)Γ (α)
,−1 < r < α
E(Xr) =θrr!
(α− 1) (α− 2) · · · (α− r)si r es entero
con Γ(·) la funcion Gamma, ya definida anteriormente.
15
Familia de distribuciones Pareto de tercer tipo
La distribucion de Pareto de tercer tipo, es una generalizacion de las anteriores, en la que
ademas de la traslacion se produce un cambio en la estructura de varianza. Se define como
distribucion de Pareto de tercer tipo a la distribucion de la v.a. X, cuya funcion de dis-
tribucion es:
F (x) = 1−(
θ
θ + x
)αe−
βθx, x > 0, α > 0, θ > 0, β ≥ 0
con funcion de densidad
f(x) =1
θ
(θ
θ + x
)αe−
βθx
[α
xθ
+ 1+ β
]Ninguna de las caracterısticas de esta distribucion tienen una expresion analıtica cerrada.
Familia de distribuciones Burr
La experiencia en el pago de montos reclamacion de seguros, ha mostrado que la Pareto
es apropiada para modelarlos, particularmente, cuando ocurren reclamaciones de montos
excepcionalmente grandes. No obstante, algunas veces es necesario tener distribuciones para
colas pesadas, que sean mas flexibles que la Pareto, por ejemplo, que consideren una funcion
de densidad no monotona. Tal flexibilidad la proporciona la distribucion Burr que tiene un
parametro de forma, β, adicional. En concreto, si X es una v.a. con distribucion Pareto de
segundo tipo, entonces
X1/β ∼ Burr (θ, α, β)
cuya funcion de densidad esta dada por
f(x) =βαθαxβ−1
(xβ + θ)α+1 x ≥ 0 , θ > 0, α > 0, β > 0
El momento de orden r de esta distribucion es
16
E (xr) =θr/βΓ (α− r/β) Γ (r/β + 1)
Γ (α), que existe si r < αβ
• α y β son parametros de forma y θ de escala.
0 10 20 30 40 50
0.0
0.1
0.2
0.3
0.4
Diversas formas de la distribución Burr
x
Bur
r
alpha= 10 , beta= 5 , theta= 0.1alpha= 20 , beta= 5 , theta= 0.1alpha= 30 , beta= 5 , theta= 0.1alpha= 40 , beta= 5 , theta= 0.1alpha= 50 , beta= 5 , theta= 0.1alpha= 60 , beta= 5 , theta= 0.1
0 10 20 30 40 50
0.00
0.01
0.02
0.03
0.04
Diversas formas de la distribución Burr
x
Bur
r
alpha= 10 , beta= 5 , theta= 0.01alpha= 20 , beta= 5 , theta= 0.01alpha= 30 , beta= 5 , theta= 0.01alpha= 40 , beta= 5 , theta= 0.01alpha= 50 , beta= 5 , theta= 0.01alpha= 60 , beta= 5 , theta= 0.01
Estas son algunas distribuciones de uso comun para modelar los montos que genera la real-
izacion de un riesgo. Por supuesto, no estan contemplados todos los modelos, son solamente
los mas utilizados para este objetivo. Por ejemplo, no hemos introducido distribuciones
como: Loglogıstica, Paralogıstica, Pareto generalizada, Gamma inversa, Weibull inversa,
Beta, Beta generalizada, Exponencial inversa, etc. Ninguno de estos modelos corresponde a
los tıpicos de valores extremos como la Gumbel o la Frechet, por ejemplo. Dada esta lista
(no exhaustiva) de posibles modelos, es claro que la eleccion del mismo para modelar una
situacion particular, no sera tarea facil, en general.
17
Distribuciones para valores extremos
Teorıa de valores extremos
• La Teorıa de Valores Extremos (Extreme value theory) consiste en el empleo de una serie de
tecnicas estadısticas para la identificacion y modelado de observaciones extremas o outliers.
• Su objeto es determinar que tan extrema puede ser la mayor o menor observacion registrada
de un fenomeno aleatorio, es decir, estudia el comportamiento del valor maximo o mınimo
de una variable aleatoria.
• El comportamiento inusual de una variable aleatoria merece una consideracion especial,
ya que puede tener un gran impacto para las decisiones que se desprendan del analisis de la
informacion a la que pertenece.
• Para explicar este tipo de sucesos que ocurren, generalmente, con muy baja frecuencia
pero que tienen una influencia muy significativa sobre todo un modelo, la Teorıa de Valores
Extremos emplea metodos matematicos basados en comportamientos asintoticos, distribu-
ciones, procesos estocasticos y leyes lımite.
• Diferentes investigaciones provenientes de multiples disciplinas cientıficas, han desarrollado
metodos para cuantificar eventos extremos y sus consecuencias de un modo estadısticamente
optimo, dando lugar a unas distribuciones de probabilidad que permiten la modelacion de
los valores maximos o mınimos de una variable aleatoria.
De forma simplificada, nuestro problema es el siguiente:
Dada una muestra independiente X1, X2, ..., Xn de una distribucion desconocida, F, quere-
mos estimar la cola de F.
Los problemas mas importantes son:
• Las observaciones en la cola de la distribucion son escasas.
• Por lo general, queremos estimar valores por encima del valor maximo de la muestra.
18
• Las tecnicas usuales de estimacion de densidades ajustan bien en las zonas donde los datos
tienen mayor densidad, pero pueden ser inadecuadas para estimar las colas.
• Los modelos correspondientes a esta teorıa de valores extremos, tienen aplicaciones en
muchas areas, una de las principales es las ciencias ambientales, donde se estudian valores
extremos, por ejemplo, en: Nivel de una presa, velocidad del viento, nivel de un rıo, concen-
tracion de contaminantes, niveles de precipitacion pluvial, etc.
• No obstante, nosotros nos enfocaremos en aplicarla dentro del marco del seguro. En esta
area, el analisis de la siniestralidad extrema es de gran interes, puesto que constituye un
riesgo que pone en peligro la estabilidad y solvencia de entidades aseguradoras.
• Distribucion del maximo
Definamos
Mn = max X1, ..., Xn
Entonces, la distribucion de este maximo es
Pr (Mn ≤ x) = Pr (X1 ≤ x, ..., Xn ≤ x) =n∏i=1
Pr (Xi ≤ x) = F n(x)
Si conocemos F , conocemos la distribucion del maximo, pero las expresiones analıticas para
F n pueden ser complicadas. Frecuentemente F es desconocida.
Entonces, dada la posible complejidad de encontrar esta distribucion, intentaremos buscar
una distribucion lımite que sirva para aproximar la distribucion de Mn, de la misma manera
como la distribucion normal sirve para aproximar la suma de una gran variedad de variables
aleatorias independientes.
Recordar que el resultado que se tiene con las sumas de variables i.i.d. y el Teorema Central
del Lımite: Por la Ley Fuerte de Grandes Numeros, si µ = E(Xi), entonces
Xn =1
n
n∑i=1
Xi −→ µ
19
y si estandarizamos (realizamos una transformacion lineal), tenemos
Xn − µnσn
−→ N(0, 1)
con µn = µ y σn = σ/√n.
Entonces, hay que buscar un resultado del tipo
Pr
(Mn − bnan
≤ x
)= F n (anX + bn) −→ G(x)
Entonces, nos preguntamos
• ¿Cuales son las distribuciones lımite posibles?
• ¿Cuales son las constantes an y bn? ¿Son unicas?
• ¿Que condiciones debe satisfacer F para que se cumpla un resultado ası?
• Si hay varias G posibles, conociendo F , ¿como sabemos, cual de ellas es el lımite? ¿Es
unico?
• ¿Cuales son las distribuciones lımite posibles?
Gumbel : G(x)=exp(−e−x
)x ∈ R
Frechet : G(x,α) =
0 x < 0
exp (−x−α) x ≥ 0, α > 0
Weibull : G(x,α) =
exp
(− (−x)−α
)x < 0, α > 0
1 x ≥ 0
• Estas tres distribuciones reciben el nombre de distribuciones de valores extremos (DV E).
20
Ejemplo
Supongamos que F es la distribucion exponencial con parametro uno. Es decir
F (x) = 1− e−x =⇒ F n(x) =(1− e−x
)ny
F (x+ log n) =(1− e−x−logn
)n=
(1− 1
ne−x)n−→ exp
(−e−x
)por lo tanto, las constantes de normalizacion an = 1 y bn = log n, conducen a que Mn tenga
como lımite una distribucion Gumbel.
−3 −2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
n=10
x
Den
sida
d
−3 −2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
n=15
x
Den
sida
d
−3 −2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
n=20
x
Den
sida
d
−3 −2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
n=25
x
Den
sida
d
La distribucion Cauchy
Consideremos ahora la distribucion Cauchy, cuya funcion de densidad de probabilidad es
f(x) =1
π (1 + x2), x ∈ R
21
Se define la funcion de Supervivencia de una variable aleatoria, como: S(x) = 1− F (x). Y
observemos que S′(x) = −f(x). Entonces
Limx−→∞
S(x)
(πx)−1=
L′HospitalLim
x−→∞
f(x)
π−1x−2= Lim
x−→∞
πx2
π (1 + x2)= 1
entonces
S(x) = 1− F (x) ∼ (πx)−1
De donde tenemos que, para x > 0
S(nxπ
)= 1− F
(nxπ
)∼ (nx)−1
y por lo tanto
Pr(Mn ≤
nx
π
)=
(1− F
(nxπ
))n=
(1− 1
n
(1
x+ o(1)
))n−→ exp
−x−1
Frechet α = 1
Las familias correspondientes a estas distribuciones del valor extremo.
Si introducimos parametros de localizacion y escala a las distribuciones del valor extremo
anteriores, obtenemos una familia de distribuciones para cada una de ellas. A saber
Gumbel(x;µ, σ) = exp(−e−(x−µ)/σ
)x ∈ R
Frechet(x;α, µ, σ) =
0 x < µ
exp(−(x-µσ
)−α)x ≥ µ, α > 0
Weibull =
exp
(−(− (x-µ)
σ
)α)0 ≤ x < µ, α > 0
1 x ≥ 0
22
Observamos que µ es el extremo izquierdo para la distribucion de Frechet y el extremo
derecho para la distribucion Weibul.
Estos tres tipos de distribuciones se pueden combinar en una sola distribucion (hiper modelo),
que se conoce como: La distribucion generalizada de valores extremos (GVE). Que tiene la
forma
G (x; ξ, µ, σ) = exp
−(
1 + ξ
(x− µσ
))−1/ξ+
con y+ = max y, 0 . Para ξ > 0 se tiene la distribucion Frechet con α = 1/ξ. Para ξ < 0,
la distribucion Weibull con α = −1/ξ, y la distribucion Gumbel se obtiene como el lımite
cuando ξ → 0. Al parametro ξ se le conoce como parametro de forma.
Excesos sobre un umbral
En coberturas de riesgo de un seguro, resultan de particular interes aquellos montos de recla-
macion que exceden cierto umbral. Es claro que el estudio de estos valores que exceden el
umbral, es de vital importancia para la solvencia de la companıa. Por tal razon, puede ser
mas conveniente utilizar modelos con umbrales para estudiar estos valores extremos, que
utilizar una distribucion GVE.
23
0 20 40 60 80 100
9798
9910
010
110
210
310
4
x
y
Umbral
Exceso
Entonces, estamos interesados en la distribucion de
Fu(x) = Pr (X − u < x|X > u) =F (x+ u)− F (u)
1− F (u)
A Fu (·) se le conoce como la distribucion de vida residual, del exceso de vida o del exceso
de perdida, esta ultima definicion es la que tiene sentido para el area aseguradora.
Distribucion Pareto Generalizada
Si la funcion de distribucion del maximo de una variable aleatoria es un elemento de GVE,
entonces, para u suficientemente grande, la distribucion Fu (·), puede aproximarse a traves
de la distribucion Pareto generalizada, cuya funcion de distribucion es
H (x; ξ, β) = 1−(ξx
β
)−1/ξ+
, x > 0
24
con β = σ+ξ (u− µ), σ, ξ, µ los parametros correspondientes al elemento de GVE, u el valor
del umbral.
Propiedad importante de la distribucion Pareto Generalizada
• Para ξ ∈ R , F es un elemento de la familia GVE, si y solo si
limu↑wF
sup0<x<wF−u
∣∣Fu(x)−Hξ,β(u)(x)∣∣ = 0
para alguna funcion positiva β y wF el extremo final de F . Esta propiedad dice que la
funcion Pareto generalizada es una buena aproximacion de los excesos de una distribucion
de la familia GVE, para un umbral, u, grande. Este resultado se puede reformular como:
1− Fu(x) = Pr (X − u > x|X > u) ≈ 1−Hξ,β(u)(x), x > 0
Es necesario que u sea lo suficientemente grande.
• Si X tiene funcion de distribucion Pareto Generalizada con parametros ξ < 1 y β, Entonces,
para u < wF
e(x) = E (X − u|X > u) =β + ξu
1− ξ, β + ξu > 0
Estos dos resultados proporcionan una tecnica grafica para elegir un umbral, u, suficiente-
mente grande para justificar que Fu se aproxime por una Pareto Generalizada, a partir de
la version muestral, en, de esta funcion y su linealidad para una distribucion GVE.
Estrategias de modelacion
Ajuste de Maximos Anuales o Metodo de Bloques
Una forma de analizar datos con valores extemos es realizando las estimaciones de los
parametros de la siguiente manera. Consideramos una coleccion de datos que agrupamos en
bloques disjuntos de datos consecutivos y de igual longitud. Si el parametro es el tiempo
(recordar que esta metodologıa se ha utilizado, sobre todo, en cuestiones ambientales), cada
25
conjunto contiene la informacion correspondiente a un periodo fijo de tiempo, digamos un
ano. En cada caso se escoge el periodo para compensar las variaciones internas. Es decir,
tenemos
X(1) =(X
(1)1 , X
(1)2 , ..., X(1)
s
)X(2) =
(X
(2)1 , X
(2)2 , ..., X(2)
s
)...
X(n) =(X
(n)1 , X
(n)2 , ..., X(n)
s
)
Se asume que cada uno de estos vectores son i.i.d, aunque sus componentes pueden no serlo.
Se elige el intervalo de tiempo s de tal manera que se cumpla este supuesto. Entonces,
haremos estimacion e inferencias sobre la muestra i.i.d. para un modelo Gθ con los datos:
Mi = max(X
(i)1 , X
(i)2 , ..., X(i)
s
), i = 1, 2, ..., n
Mostraremos como ajustar un modelo a datos reales mediante esta estrategia, utilizando la
librerıa extRemes de R.
El metodo de estimacion por bloques no hace el mejor uso de la informacion disponible,
pues de cada bloque solo utilizamos un dato: el valor maximo. Sin embargo, otros valores
con registros altos en el mismo bloque pueden tener informacion util sobre la cola de la dis-
tribucion de la muestra, que deberıamos considerar para el analisis. Si tenemos informacion
sobre la serie completa de datos, una alternativa es dejar de lado el procedimiento de bloques
y estudiar todos los valores altos de la muestra.
El segundo enfoque que utilizaremos para modelar datos extremos sera el que considera
los valores por encima de un umbral. Entonces, la idea es seleccionar un umbral alto y
considerar los valores de la muestra que estan por encima de este umbral, para ajustar un
modelo Pareto Generalizado.
Ejemplificaremos este ajuste a traves de varias librerıas de R.
26
MEDIDAS DE RIESGO
Los modelos probabilısticos (en nuestro caso, las densidades o distribuciones mencionadas
anteriormente) nos proporcionan una descripcion de la exposicion al riesgo, no obstante,
necesitamos describir esta exposicion con algun valor numerico o con unos pocos valores
numericos. Estos valores son funciones del modelo y se conocen como indicadores clave de
riesgo. Entonces, estos indicadores son resumenes numericos sobre el comportamiento de
nuestro riesgo, parecidos a los que utilizamos para describir una variable aleatoria. Estos
indicadores informan a los actuarios y a los administradores de riesgo, sobre el grado en que
la companıa esta sujeta a un particular aspecto del riesgo.
• Una medida de riesgo esta en correspondencia con la perdida asociada a este riesgo
• Una medida de riesgo proporciona un solo numero que intenta cuantificar la exposicion a
este riesgo.
• Esta medida se denota como ρ(x). Es conveniente pensar a ρ(x) como la cantidad de
activos requeridos para protegerse de las consecuencias adversas del riesgo, X.
Coherencia de una medida de riesgo
Wang, Young y Panjer (1997) introducen ciertos axiomas, que representan propiedades de-
seables de una medida de riesgo. Artzner et al. (1997) introduce el concepto de coherencia
y se considera el parteaguas en medicion de riesgo.
Una medida de riesgo coherente, es una medida de riesgo ρ(x) con las cuatro propiedades
siguientes. Para cualesquiera dos variables aleatorias de perdida X y Y :
1.- Subaditividad : ρ(X + Y ) ≤ ρ(X) + ρ(Y )
2.- Monotonıa: Si X ≤ Y para todas las posibles consecuencias, entonces ρ(X) ≤ ρ(Y )
3.- Homogeneidad positiva: Para cualquier constante positiva c, ρ(cX) = cρ(X)
4.- Invarianza a translaciones : Para cualquier constante positiva c, ρ(X + c) = ρ(X) + c
Subaditividad significa que la medida de riesgo (y, por lo tanto, el capital requerido para
27
darle soporte) de dos riesgos combinados, no sera mayor que los riesgos considerados por
separado. Subaditividad refleja el hecho que diversificar el riesgo puede ser benefico para
una empresa.
Valor en Riesgo (VaR)
El V aR se ha vuelto la medida estandar para medir exposicion a riesgo. En terminos gen-
erales, V aR es el capital requerido para asegurar, con alto grado de certeza, que la empresa
no sera tecnicamente insolvente. El grado de certeza se elige de manera arbitraria. En la
practica se pueden elegir valores grandes como 99.95% para toda la empresa, o 95% para una
sola clase de riesgo. Entonces, el V aR mide la perdida que se podrıa sufrir, en condiciones
normales del mercado, en un intervalo de tiempo y con un determinado nivel de probabilidad
o confianza.
Por ejemplo, un inversionista que tiene un portafolios de activos por un valor de 10 millones
de pesos, podrıa establecer que el V aR diario de su portafolios es 250, 000 con un nivel de
confianza de 95%. En otras palabras, solamente uno de cada 20 dıas de operacion del mer-
cado (1/20 = 5%), en condiciones normales, la perdida que ocurrira puede ser mayor o igual
a 250, 000.
Definicion tecnica del VaR
Sea X una v. a. con funcion de distribucion, F (x), que denota perdida. El Valor en
Riesgo (VaR) de X al 100%p nivel de confianza, denotado por V aRp(X) o πp, es el p-
esimo percentil de la distribucion de X.
P(X > πp) = 1− p
Pese a la popularidad de esta medida, conviene aclarar que V aR no es subaditiva, lo que la
convierte en una medida incoherente de riesgo, y no refleja el efecto por la diversificacion de
los riesgos.
Ejemplos
Calculemos el V aR de algunas de las distribuciones de uso comun como modelos de perdida
28
Distribucion Normal(µ, σ2). Aunque esta distribucion puede ser cuestionable como modelo
de perdida, suele considerarse por su gran uso en estadıstica. Para encontrar su V aR, ten-
emos
P [X > V aRp(x)] = 1− p⇒ Pr [X ≤ V aRp(x)] = p⇒
P[X − µσ
≤ V aRp(x)− µσ
]= p⇒
P[z ≤ V aRp(x)− µ
σ
]= p⇒ V aRp(x)− µ
σ= Φ−1(p)⇒ V aRp(x) = µ+ σΦ−1(p)
Exponencial(θ)
Recordar que su funcion de distribucion es 1− e−x/θ. Entonces
P [X ≤ V aRp(x)] = p⇒ 1− e−V aRp(x)/θ = p⇒ V aRp(x) = −θlog(1− p)
Log-normal(µ, σ2) y Pareto(α, θ) se dejan como ejercicio al lector.
TailVaR (TVaR)
Definicion tecnica del TVaR
Sea X v. a. con funcion de distribucion F (X), que denota perdida. El TVaR de X al 100%p
nivel de seguridad, denotado por TV aRp(X), es la perdida esperada dado que esta excede
el p-esimo percentil de la distribucion de X.
TV aRp(X) = E(X|X > πp) =
∫ ∞πp
xf(x)dx
1− F (πp)
Una forma alternativa mas interesante de escribir esta cantidad, es:
TV aRp(X) = E(X|X > πp) =
∫ 1
p
V aRu(X)du
1− p
Esta expresion del TV aR implica que puede verse como un promedio de todos los valores
V aR por encima del valor de seguridad p. Lo que significa que proporciona mucho mas in-
formacion sobre la cola de la distribucion que la que da el V aR. TV aR recibe otros nombres
29
en el campo de los seguros: Conditional Tail Expectation(CTE), Tail Conditional Expecta-
tion (TCE) y Expected Shortfall (ES). Finalmente, podemos decir que el TV aR es el valor
esperado de las perdidas en aquellos casos en que se excede el nivel de seguridad previa-
mente fijado. TV aR refleja con mayor fidelidad los eventos extremos que pueden amenazar
la posicion financiera de la entidad. Otra forma comun de escribir el TV aR es
TV aRp(X) = E(X|X > πp) = πp +
∫ ∞πp
(x− πp)f(x)dx
1− p= V aRp(X) + e(πp)
A e(πp) se le conoce como la funcion media de exceso de perdida. Entonces, TV aR es mayor
que su correspondiente V aR por el promedio de exceso de todas las perdidas que exceden al
V aR.
Contrario al V aR, TV aR es una medida de riesgo coherente, por lo que refleja el efecto de
la diversificacion de riesgos.
Dado un umbral de seguridad o confianza, en datos reales, el TV aR es una medida mas
difıcil de calcular que el V aR, ya que ambas se calculan con los datos (generalmente escasos)
acumulados en la cola de la distribucion (mayor error de estimacion).
Ejemplos
Exponencial(θ)
V aRp(X) = −θlog(1− p), y podemos mostrar que, e(x) =
∫ ∞πp
S(x)dx
S(πp). Con S(·) la funcion
de supervivencia de la variable aleatoria. Utilizando este resultados tenemos
e(x) =
∫ ∞πp
e−x/θdx
1− p=−θe−x/θ|∞πp
1− p=θe−πp/θ
1− p=θ(1− p)(1− p)
= θ
Por lo tanto, TV aRp(X) = V aRp(X) + e(x) = −θlog(1− p) + θ.
Pareto(α, θ)
30
Esta distribucion tiene
V aRp = θ[(1− p)−1/α − 1
]y S(x) =
(θ
θ + x
)α
Calculemos e(x) =
∫ ∞πp
S(x)dx
S(πp)
e(x) =
∫ ∞πp
(θ
θ + x
)αdx
1− p=θα (θ + πp)
1−α
α− 1=θα(θ + πp)
(1
θ+πp
)α(α− 1)(1− p)
si remplazamos πp, por su valor y realizamos las operaciones algebraicas, obtenemos
e(x) =θ + πpα− 1
Por lo que finalmente tenemos
TV aRp(X) = V aRp(X) +θ + πpα− 1
= V aRp(X) +V aRp(X) + θ
α− 1
Casos Normal y Log-normal se dejan como ejercicio al lector.
31
Ajuste de una distribucion Pareto Generalizada a la base de datos de
reclamaciones grandes, de la sociedad de actuarios
Como vimos, nuestra segunda opcion importante en los modelos de teorıa del valor extremo,
es la Pareto Generalizada, que surge a partir del metodo conocido como P.O.T. (Peaks over
threshold method), que consiste en modelar los valores extremos que exceden a un cierto
umbral, u, ya sea que modelemos todos los datos, Xi, i = 1, 2, ..., n, o los valores que exce-
den a este umbral Yi = Xi − u, i = 1, 2, ...n. Al intentar aplicar este metodo surgen algunas
cuestiones que debemos resolver
• La primera consiste en determina o elegir el umbral, u. Esta eleccion esta sujeta a un
problema conocido como el problema de la varianza y el sesgo. Porque, cuanto menor
sea el umbral mayor es el numero de observaciones que utilizaremos para ajustar el
modelo, lo que, generalmente, puede disminuir la varianza de los estimadores, pero
puede incrementarse el sesgo si se utilizan observaciones que no pertenecen a la cola de
la distribucion. Por otro lado, si se reduce el numero de observaciones (con un umbral
mas grande), se reduce el sesgo, porque podemos suponer que todas las observaciones
sı pertenecen a la cola de la distribucion, pero, al utilizar pocos datos en nuestra esti-
macion, incrementamos la varianza de los estimadores y, en consecuencia, de nuestro
modelo.
• La segunda cuestion es determinar que funcion de distribucion ajusta a esos datos
que exceden el umbral fijado en el paso anterior. Por supuesto, se trata de encontrar
una distribucion condicional al hecho de que los valores extremos hayan superado el
umbral, u. Como ya dijimos, esta distribucion es la distribucion Pareto Generaliza.
Este resultado esta garantizado por el teorema de Pickands-Balkema-de Haan (Balkema
y de Haan (1974); Pickands (1975)) que muestra que bajo condiciones de maximos
dominios de atraccion1 la distribucion generalizada de Pareto es la distribucion lımite
1Sea Xn, n ≥ 1 una sucesion de v.a.i.i.d. con funcion de distribucion comun F. Sea,
Mn = max Xi, i = 1, 2, ..., n
Decimos que la funcion de distribucion, F, esta en el dominio de atraccion de la distribucion de valoresextremos H (notacion: F ∈ D(H)) si existen constantes an > 0, bn ∈ R, tales que
Fn (anX + bn) = P (Mn ≤ anX + bn)→ H(x)
32
para los excesos sobre un umbral u cuando este es grande.
Eleccion del umbral
El teorema de Pickands-Balkema-de Haan, enuncia que la distribucion generalizada de Pareto
ajusta aquellos valores que exceden un determinado umbral cuando este umbral, u, es su-
ficientemente grande. La dificultad radica en determinar ese umbral a partir del cual es
posible ajustar la distribucion de Pareto Generalizada.
Uso de la funcion media de exceso
La funcion media de exceso teorica de la distribucion de Pareto Generalizada es:
e(x) = E (X − u|X > u) =β + ξu
1− ξ=
β
1− ξ+
ξ
1− ξ, β + ξu > 0
que es una funcion lineal de u, con pendienteξ
1− ξ, una vez que se ha definido un umbral
adecuadamente grande.
Dada una muestra ordenada de forma descendente: (X1:n, X2:n, ..., Xn:n), la funcion empırica
de exceso medio se estima con la siguiente expresion :
ex(x) =
n∑i=1
(Xi:n − u)+
n∑i=1
1(Xi:n>u)
En el numerador se encuentra la suma de los excesos sobre el umbral, u, y en el denominador
el numero de valores que cumplen la condicion de ser superiores a este umbral, es decir, se
estima a traves de la media aritmetica de los valores que exceden a u.
En la practica, es comun tomar como umbrales los propios datos de la muestra, esto es,
u = Xk+1, y esta expresion reduce a:
33
en (Xk) =
k∑i=1
Xi
k−Xk+1
La grafica de la funcion media de excesos es una grafica de los puntos
(Xk:n, en (Xk:n)) , k = 1, ..., n− 1
Entonces, para encontrar el umbral, u, para el cual es razonable pensar que el ajuste a traves
de la distribucion generalizada de Pareto es adecuado, se debe elegir el umbral, tomando el
valor a partir del cual la grafica toma una forma lineal ascendente, ya que la grafica de ex-
ceso medio para la distribucion Pareto generalizada es lineal y tiende a infinito con pendiente
positiva.
34
Distribuciones discretas
Ademas de modelar el monto de reclamacion, tambien es de interes modelar la frecuencia
con las que estas perdidas ocurren. Como es de suponer, los modelos para caracterizar esta
frecuencia de perdidas, corresponden a distribuciones para variables aleatorias discretas. Es
importante senalar que este tipo de distribuciones tambien pueden utilizarse cuando los mon-
tos de perdida se agrupan en una tabla de frecuencias, situacion muy comun en el quehacer
de las companıas aseguradoras.
Antes de iniciar la presentacion de los modelos para v.a. discretas y sus caracterısticas, es
conveniente recordar una importante funcion asociada a estas variables.
La funcion generadora de probabilidades
Sea N una v.a. discreta, con funcion de probabilidad denotada como pk = P(N = k); k =
0, 1, 2... que representa, en nuestro caso, la probabilidad de que exactamente k reclamaciones
ocurran. La funcion generadora de probabilidades (f.g.p.) para esta v.a. es
PN(z) = E(zN)
=∞∑k=1
pkzk
que recibe este nombre porque
1
k!
dk
dzkPN(0) = Pr (N = k)
La familia de distribuciones Binomial(n,q)
Esta distribucion caracteriza el numero de exitos o fracasos, segun sea el caso, en n ensayos
Bernoulli independientes. Su funcion de densidad de probabilidad es
pk = P (N = k) =
(n
x
)qk (1− q)n−k , x = 0, 1, ..., n, 0 < q < 1
35
Cuyas caracterısticas son
• E (N) = nq; V (N) = nq(1− q); P (N) = (1 + q(z − 1))n ; MN(t) = [(1− q) + qet]n
Distribución Binomial(50,0.2)
x
p(x)
0.00
0.02
0.04
0.06
0.08
0.10
0.12
Distribución Binomial(50,0.5)
x
p(x)
0.00
0.02
0.04
0.06
0.08
0.10
Distribución Binomial(50,0.9)
x
p(x)
0.00
0.05
0.10
0.15
La familia de distribuciones Geometrica(β)
La distribucion geometrica caracteriza el numero, X, de ensayos Bernoulli necesarios para
obtener un exito; x = 1, 2, 3, ..., o tambien es...
La distribucion de probabilidad del numero Y=X-1 de fallas antes de obtener el primer exito;
y = 0, 1, 2, 3, ....
Entonces, si p =β
1 + βes la probabilidad de un exito, la funcion de densidad de probabilidad
de esta variable aleatoria es
P (N = k) =
(β
1 + β
)k−11
1 + β; k = 1, 2, ... o bien
36
P (N = k) =
(β
1 + β
)k1
1 + β; k = 0, 1, 2, ...
Con caracterısticas
• E (N) = β; V (N) = β(1 + β); P (N) = (1− β(z − 1))−1 ; MN(t) = [1 + β (1− et)]−1
Distribución Geométrica(50,1)
x
p(x)
0.0
0.1
0.2
0.3
0.4
0.5
Distribución Geométrica(50,1/3)
x
p(x)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Distribución Geométrica(50,1/4)
x
p(x)
0.00
0.05
0.10
0.15
0.20
La familia de distribuciones Poisson(λ)
Esta es, probablemente, la mas importante de las distribuciones discretas para modelar la
frecuencia de reclamaciones. La distribucion Poisson puede contemplarse como el caso lımite
de la distribucion Binomial(n, p), donde n es muy grande y la probabilidad de ocurrencia p
es constante y muy pequena. En este caso, N sigue una distribucion Poisson con parametro
λ = np. Decimos que N ∼ Poisson(λ), si N tiene funcion de densidad de probabilidad dada
por
P (N = k) =λke−λ
k!; k = 0, 1, 2, ... λ > 0
37
Con caracterısticas
• E (N) = λ; V (N) = λ; P (N) = eλ(z−1); MN(t) = eλ(et−1)
El hecho de que la Poisson tenga media y varianza igual, proporciona un fuerte evidencia
empırica para determinar si un conjunto particular de frecuencias de reclamaciones sigue
esta distribucion. Bastarıa calcular la media y varianza de los datos y ver si estas cantidades
son similares.
Distribución Poisson(1)
x
p(x)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Distribución Poisson(3)
x
p(x)
0.00
0.05
0.10
0.15
0.20
Distribución Poisson(10)
x
p(x)
0.00
0.02
0.04
0.06
0.08
0.10
0.12
Familia de distribuciones Binomial Negativa (β, k)
Una distribucion que puede usarse como alternativa a una Poisson es la Binomial Negativa.
Existen al menos dos razones para considerar esta distribucion en lugar de la Poisson.
• Dado que esta distribucion tiene dos parametros, es mas flexible, en el sentido de que
puede tener formas mas diversas, que la Poisson que unicamente tiene un parametro.
• Dado que su varianza es mas grande que su media, constituye tambien una alternativa
para modelar datos de conteo sobredispersos, que son muy comunes en aplicaciones
38
reales.
Una forma estandar de concebir esta distribucion es en una situacion de muestreo por cuota.
Este esquema de muestreo es tıpico de investigaciones de mercado, en las que se pide a un
individuo entrevistar a un numero no definido de sujetos (n) hasta que una parte de ellos (m:
cuota fijo) haya contestado afirmativamente a alguna pregunta o haya preferido un producto
bajo investigacion para su comercializacion. Por supuesto, asumimos que la probabilidad,
p, de que obtengamos una respuesta afirmativa, es la misma para cualquier sujeto. Este
esquema es similar al que se modelarıa con una Binomial, pero, mientras en la Binomial el
numero de “exitos”, m, es aleatorio y el numero de ensayos, n, es fijo, en este caso sucede
exactamente al reves: el numero de “exitos”, m, es fijo (no aleatorio) y el numero de ensayos
(n: total de entrevistados necesarios para tener m exitos) es aleatorio.
Para deducir la funcion de masa de probabilidad, consideremos el numero de fracasos que
han ocurrido hasta obtener m exitos. Si suponemos que han ocurrido k fracasos antes de
obtener estos m exitos, es claro que n=m+k y que en los primeros m+k-1 ensayos debieron
de haber ocurrido m-1 exitos, ya que en el siguiente ensayo debio ocurrir el ultimo exito que
completa la cuota requerida. Entonces, dado que hemos fijado la condicion de m-1 exitos
en los primeros m+k-1 ensayos, este hecho puede modelarse a traves de una v.a. Binomial
(m+k-1, p), y como requerimos que en el ultimo ensayo, que es independiente de los primeros
m+k-1, ocurra necesariamente un exito, entonces la funcion de densidad de esta v.a. es
P(N = k) =
(m+ k − 1
m− 1
)(β
1 + β
)m−1(1
1 + β
)k∗ β
1 + β, entonces
P(N = k) =
(m+ k − 1
k
)(β
1 + β
)m(1
1 + β
)kk=0,1,2,...
ya que
(m+ k − 1
m− 1
)=
(m+ k − 1
k
)Observese que si k = 1, la Binomial Negativa se convierte en la Geometrica. Al igual que en
nuestra definicion de la densidad geometrica, aquı p =β
1 + β
39
Caracterısticas de esta v.a.
E(N) = kβ; V(N) = kβ(1 + β); PN(t) = [1− β(z − 1)]−k ; MN(t) =
[1
1 + β(1− et)
]kYa que β > 0, entonces la varianza de la binomial negativa es mayor que su media,
razon por la que suele usarse como alternativa a la Poisson cuando esta es sobre dispersa
(V ar > media).
Distribución Binomial negativa(2,1/2)
x
p(x)
0.00
0.05
0.10
0.15
0.20
0.25
Distribución Binomial negativa(2,0.3)
x
p(x)
0.00
0.02
0.04
0.06
0.08
0.10
0.12
Distribución Binomial negativa(2,0.7)
x
p(x)
0.0
0.1
0.2
0.3
0.4
Distribuciones de la clase (a,b,0)
Ahora vamos a definir una clase general de distribuciones discretas, que sera de mucha util-
idad para la modelacion de frecuencias de reclamaciones.
La clase (a,b,0)
Definicion 2 Una distribucion de frecuencias pk es un miembro de la clase (a, b, 0) si exis-
ten constantes a y b tales que
40
pkpk−1
= a+b
k, k = 1, 2, 3, ...
donde a y b son constantes propias de cada distribucion. En la siguiente tabla se muestran
los miembros de esta clase, con cada uno de sus valores de estas constantes, ası como el valor
de la funcion de probabilidad en cero, p0.
Distribuciones de la clase (a,b,0)
Distribucion a b p0
Binomial(n,q) − q
1− q(n+ 1)
q
1− q(1 + q)n
Poisson(λ) 0 λ e−λ
BN(β,k)β
1 + β(k − 1)
β
1 + β(1 + β)k
Geometrica(β)β
1 + β0 (1 + β)−1
En conclusion, La clase(a, b, 0) es una hiper familia de distribuciones discretas, que tiene
como miembros distinguidos a las distribuciones mencionadas.
Esta clase provee una forma de encontrar las probabilidades de las distribuciones discretas, a
traves de esta formula recursiva, y resulta bastante practica al momento de querer ajustarlas
a nuestros datos. Ademas, podemos reescribir la formula de tal manera que quede como una
funcion lineal. Es decir
kpkpk−1
= ak + b, k = 1, 2, 3, ...
Con esta forma lineal es posible identificar, por medio de su pendiente, la distribucion de
probabilidad. Esto es, si la pendiente es igual a cero, entonces se trata de una distribucion
Poisson; si es negativa, entonces sera Binomial y si es positiva es una distribucion Binomial
Negativa.
Concretamente tenemos
41
Binomial(n, p)kpkpk−1
= (n + 1)q
1− q− q
1− qk que es una lınea recta con pendiente
negativa
Poisson(λ)kpkpk−1
= λ+ 0k que es una lınea recta con pendiente cero
BN(β, r)kpkpk−1
= (r − 1)β
1 + β+
β
1 + βk que es una lınea recta con pendiente positiva.
2 4 6 8 10
4.96
4.98
5.00
5.02
5.04
Distribución Poisson
k
kpk
p k−1
42
2 4 6 8 10
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Distribución Binomial
k
kpk
p k−1
43
2 4 6 8 10
12
34
5Distribución Binomial Negativa
k
kpk
p k−1
Distribuciones de clase (a, b, 1)
Algunas veces las distribuciones de frecuencia anteriores no describen adecuadamente el com-
portamiento de un conjunto de datos real. Por ejemplo, porque la distribucion elegida no
ajusta adecuadamente a la cola de los datos, o porque el miembro elegido de la clase (a, b, 0)
no captura, en alguna parte, la forma de la distribucion de los datos. Un problema adicional
ocurre con la cola izquierda de la distribucion, en particular con la probabilidad en cero.
Para datos de seguros, la probabilidad en cero denota la probabilidad de que no ocurran
reclamaciones en un determinado periodo de tiempo. En situaciones donde la ocurrencia
de perdidas es baja, la probabilidad en cero toma un valor grande. Por lo que hay que
prestar especial atencion sobre el ajuste en este punto. En contraste, existen situaciones en
las que la probabilidad de no sufrir perdidas en un periodo determinado, es practicamente
cero, como sucede, por ejemplo, para un seguro de autos para una gran flota de vehıculos,
o en un seguro de enfermedades. Es facil hacer un ajuste a la probabilidad en cero de los
modelos que componen la clase (a, b, 0), para considerar estas situaciones.
La clase (a, b, 1) es la familia de distribuciones que satisfacen la formula recursiva
44
pkpk−1
= a+b
kk = 2, 3, ... o
kpkpk−1
= ak + b (forma lineal)
La unica diferencia con la anterior es que esta inicia en p1 y no en p0. Identificamos dos
tipos de estas distribuciones
• Truncada en cero (zero-truncated): cuando p0 = 0.
• Modificada en cero (zero-modified): cuando p0 > 0.
Es claro que lo que estamos haciendo es modificar a nuestra voluntad, el valor asignado a las
probabilidades para el valor nulo de la variable aleatoria en cuestion. Estas modificaciones
deben responder al problema particular que estemos modelando.
Una distribucion de la clase (a, b, 1) tiene la misma forma que su correspondiente en la clase
(a, b, 0), en el sentido que sus probabilidades son las mismas salvo una constante de propor-
cionalidad.
Relacion entre estas clases
Sea P (z) =∞∑k=0
pkzk la fgp de un miembro de la clase (a, b, 0) y PM(z) =
∞∑k=0
pMk zk la fgp del
miembro correspondiente de la clase (a, b, 1). Como dijimos, se tiene que
pMk = cpk, k = 1, 2, 3, ...
con pM0 un numero arbitrario. Entonces
PM(z) = pM0 +∞∑k=1
pMk zk
= pM0 + c
∞∑k=1
pkzk
= pM0 + c [P (z)− p0]
ya que PM(1) = P (1) = 1, entonces
45
1 = pM0 + c(1− p0)
de donde obtenemos
c =1− pM01− p0
, o pM0 = 1− c(1− p0)
Si remplazamos este valor en la expresion para PM(z), obtenemos
(1− 1− pM0
1− p0
)+
1− pM01− p0
P (z)
que es un promedio ponderado de las fgps de una distribucion degenerada y la del miembro
correspondiente de la clase (a, b, 0). Ademas tenemos
pMk =1− pM01− p0
pk, k = 1, 2, ...
Si ahora denotamos P T (z) a la fgp de una distribucion truncada en cero, correspondiente
a la fgp de un miembro de la clase (a, b, 0), P (z). Remplazando pM0 = 0 en las expresiones
anteriores, tenemos
P T (z) =P (z)− p0
1− p0,
pTk =pk
1− p0, k = 1, 2, ...,
pMk = (1− pM0 )pTk , k = 1, 2, ... y
PM(z) = pM0 + (1− pM0 )P T (z)
tambien un promedio ponderado entre una distribucion degenerada y el correspondiente
miembro de la clase (a, b, 0), truncada en cero.
46
Ejercicio urgente pa’ aclarar esto
Consideremos una binomial negativa (β = 0.5, r = 2.5). Determinemos los primeros cuatro
valores de sus probabilidades para los casos cero-truncado y cero-modificado, con pM0 = 0.6.
Primero, observemos que BN pertenece a la clase (a, b, 0). En este caso
a =0.5
1.5=
1
3, b =
(2.5− 1) ∗ 0.5
1.5=
1
2, y
p0 = (1 + 0.5)−2.5 = 0.362887
Si no tuvieramos ninguna modificacion, entonces calcularıamos los otros tres valores a traves
de la formula recursiva correspondiente, como
pk = pk−1
(a+
b
k
)= pk−1
(a+ b
1
k
)
Dado que ya calculamos las constantes a y b, y la primer probabilidad, p0, las probabilidades
restantes son
p1 = 0.362887
(1
3+
1
2
1
1
)= 0.302406
p2 = 0.302406
(1
3+
1
2
1
2
)= 0.176404
p3 = 0.176404
(1
3+
1
2
1
3
)= 0.088202
pero estas modificaciones cambiaran las probabilidades del modelo original. En el caso
cero-truncado forzamos el modelo a tomar pT0 = 0. Ya que el modelo original asigna una
probabilidad positiva al valor cero, tendremos que incrementar las probabilidades originales
en este modelo truncado en cero. Entonces, el primer valor de esta distribucion truncada
es pT1 = 0.302406/(1 − 0.362887) = 0.474651. A partir de este valor iniciamos el proceso
recursivo para obtener los dos restantes
pT2 = 0.474651
(1
3+
1
2
1
2
)= 0.276880
47
pT3 = 0.276880
(1
3+
1
2
1
3
)= 0.138440
Por otro lado, en el caso de cero-modificado observamos que se asigna una probabilidad
mayor en cero, pM0 = 0.6, de la que se tiene con el modelo original, por lo tanto, habra que
decrementar las probabilidades originales. Dado este valor inicial, calculamos
pM1 = (1− 0.6)(0.302406)/(1− 0.362887) = 0.189860. De aquı tenemos
pM2 = 0.189860
(1
3+
1
2
1
2
)= 0.110752
pM3 = 0.110752
(1
3+
1
2
1
3
)= 0.055376
48
Variables y Modificaciones de cobertura
En esta seccion vamos a definir conceptos necesarios para el desarrollo de la teorıa proba-
bilistica y estadıstica que abarcan los seguros. Primero, es claro que existen distintos tipos de
acuerdos entre las companıas aseguradoras y el asegurado, bajo los cuales se buscan satisfacer
las necesidades de ambos, a traves de las distintas coberturas que se ofrecen en las polizas
de seguros. Entonces, para desarrollar los modelos que contemplen estas modificaciones de
cobertura, es indispensable definir las nuevas variables que generalmente se observan en los
diversos tipos de cobertura, y por medio de las cuales desarrollaremos la teorıa posterior.
Hasta ahora, hemos supuesto que la cantidad de perdida, X, es tambien la cantidad a pagar
por las reclamaciones. Sin embargo, hay modificaciones a las polizas por las que el asegu-
rador puede ser responsable unicamente de un porcentaje o proporcion de esta perdida, que
constituye propiamente la severidad de la misma. Por ejemplo cuando la poliza tiene:
• Deducibles
• Lımites de poliza
• Coaseguro
Antes de representar estas modificaciones al pago de las perdidas mediante variables aleato-
rias y las funciones que las describen, es conveniente distinguir entre dos asociadas a esta
situacion. Una v.a. relacionada al pago de la perdida, en la que el valor cero es posible, y
ocurre cuando hay una perdida sin pago. La segunda corresponde a la que mide “el pago del
pago”, que queda indefinida si no hay pago.
Definicion Deducible: Cantidad o porcentaje establecido en una poliza cuyo importe debe
superarse para que se pague una reclamacion.
En teminos tecnicos: Las polizas de seguro se venden con un deducible, d, por pago de la
perdida. Cuando la perdida, x, es menor que d, la companıa aseguradora no paga nada.
Cuando la perdida es superior a d, la companıa paga x−d. Entonces, definimos las variables
aleatorias asociadas:
La siguiente variable que denota “el pago del pago”
49
Y P =
no definida, si X ≤ d
X − d, si X > d
.
Esta variable tiene dos caracterısticas importantes, la primera de ellas, es que esta truncada
por la izquierda, ya que que aquellas observaciones por debajo del valor del deducible, d ,
son omitidas y esta trasladada debido a que los valores que toma la v.a. empiezan a partir
de d.
Mientras que la que esta asociada al pago por la perdida es:
Y L = (Y − d)+ =
0, si X ≤ d
X − d, si X > d
Y L es una v.a. mixta con una masa de probabilidad en cero, y posiblemente continua para
valores mayores a este. Notemos que Y P = Y L|Y L > 0 = Y L|X > d. Dadas las definiciones
anteriores, se tiene que:
fY P =fX(y + d)
SX(d), y > 0
SY P =SX(y + d)
SX(d)
FY P =FX(y + d)− FX(d)
1− FX(d)
hY P =fX(y + d)
SX(y + d)= hX(y + d)
fY L = fX(y + d), y > 0
SY L = SX(y + d), y ≥ 0
FY L = FX(y + d), y ≥ 0
Donde S(·) y h(·) son las correspondientes funciones de supervivencia y riesgo, respectiva-
mente. Es importante remarcar que si se cambia el deducible, se modifica la frecuencia con
50
la que se hacen los pagos; sin embargo, la frecuencia de perdidas permanece inalterada.
Ejemplo: Supongamos que nuestra variable individual de perdida se distribuye Pareto con
α = 3 y θ = 2000, y tenemos un deducible de 500. Utilizando las formulas anteriores, tenemos
fY P (y) =3(2000)3(2000 + y + 500)−4
(2000)3(2000 + 500)−3=
3(2500)3
(2500 + y)4
SY P (y) =
(2500
2500 + y
)3
FY P (y) = 1−(
2500
2500 + y
)3
hY P (y) =3
2500 + y
que es una distribucion Pareto(3, 2500). Para nuestra variable de perdida, tenemos:
fY L(y) =
0.488, si y = 0
3(2000)3
(2500 + y)4, si y > 0
SY L(y) =
0.512, si y = 0
(2000)3
(2500 + y)4, si y > 0
FY L(y) =
0.488, si y = 0
1− 3(2000)3
(2500 + y)4, si y > 0
hY L(y) =
no definida, si y = 0
3
2500 + y, si y > 0
51
0 20 40 60 80 100
0.00
0.02
0.04
0.06
0.08
0.10
Pareto(4,30)
x
f.d.p
.
XY^P
0 20 40 60 80 100
0.0
0.2
0.4
0.6
0.8
Pareto(4,30)
x
f.d.p
.
XY^L
Valores esperados
El k-esimo momento de estas variables se definen como:
E[(X − d)k|X > d
]=
∫ ∞d
(x− d)kf(x)dx
1− F (d)
para Y P , y como:
E[(X − d)k+
]=
∫ ∞d
(x− d)kf(x)dx
para Y L. Definimos min(X, d) = (X ∧ d). Entonces, observese que
X = (X − d)+ + (X ∧ d)
de donde se desprende que, en una poliza con un deducible ordinario, el costo esperado por
perdida es:
52
E [(X − d)+] = E(X)− E(X ∧ d)
y el costo esperado por pago es:
E(X)− E(X ∧ d)
1− F (d)
y, como se calcula E(X ∧ d)?. En general, el k-esimo momento es:
E[(X ∧ d)k
]=
∫ d
−∞xkf(x)dx+ dk [1− F (d)]
Tres resultados que seran de gran utilidad en el desarrollo de varias formulas y de calculos,
son:
E(X) =
∫ ∞0
[1− F (x)] dx =
∫ ∞0
S(x)dx
E [(X ∧ d)] =
∫ d
0
[1− F (x)] dx
E [(X − d)+] =
∫ ∞d
[1− F (x)] dx
Calculemos estas esperanzas en el caso de la Pareto(3, 2000), con deducible de 500.
F (500) = 1− 2000
(2000 + 500)3= 0.488,
E(X ∧ 500) =2000
2
[1−
(2000
2000 + 500
)2]
= 360
Recordemos que la Pareto(α, θ) tiene esperanza θ/(α − 1). Entonces, nuestra variable que
denota esta perdida tiene E(X) = 2000/2 = 1000. Por lo tanto, el costo esperado por perdida
es 1000− 360 = 640 y el costo esperado por pago es 640/(1− 0.488) = 1250.
La tasa de eliminacion de perdidas y el efecto de inflacion en deducibles ordinarios
Una cantidad que puede ser importante para evaluar el impacto de un deducible, es la tasa
de eliminacion de perdida.
53
Definicion: La tasa de eliminacion de perdida es el cociente de decremento en el pago es-
perado con un deducible ordinario, respecto al pago sin este deducible. Sin el deducible, el
pago esperado es E(X). Con el deducible, este pago esperado es E(X) − E(X ∧ d). Por lo
tanto, la tasa de eliminacion de perdida es:
E(X)− [E(X)− E(X ∧ d)]
E(X)=
E(X ∧ d)
E(X)
siempre que E(X) exista.
Siguiendo con nuestro ejemplo de la Pareto(3,2000), con un deducible ordinario de 500. La
tasa de eliminacion de perdida es 360/1000 = 0.36. Entonces, el 36% de la perdida puede
ser eliminada al introducir un deducible ordinario de 500.
El efecto de la inflacion
Es obvio que la inflacion incrementa los costos, pero cuando existe un deducible, el efecto de
la inflacion se magnifica:
• Algunos eventos que formalmente producıan perdidas por debajo del deducible, ahora
requeriran de pago de la perdida, por efecto de la inflacion. Es decir, ahora hay mas recla-
maciones que exceden el deducible.
• El efecto relativo de la inflacion se magnifica, ya que el deducible se sustrae posterior a
la inflacion. El deducible no incrementa con la inflacion, pero los reclamos que exceden el
deducible creceran mas que la tasa de inflacion. Por ejemplo, suponga que un evento produce
una perdida de 600 sin efecto de inflacion, y tiene un deducible de 500, entonces, el pago es
de 100. Si la inflacion es del 10%, la perdida incrementara a 660, y el pago a 160, lo que
equivale a un incremento del 60% sobre el pago sin inflacion, y este costo extra debe ser
absorvido por la aseguradora.
Pago esperado por reclamo, considerando la tasa de inflacion
• Consideremos un deducible, d, y una tasa de inflacion constante, r, a lo largo del periodo.
• El pago esperado por perdida sera
54
E [(1 + r)X]− E [(1 + r)X ∧ d]
que puede reescribirse como
(1 + r)
[E(X)− E
(X ∧ d
1 + r
)]
Veamos esto ultimo
E
((1 + r)X − d)+
= (1 + r)E(
X − d
1 + r
)+
= (1 + r)
E(X)− E
(X ∧ d
1 + r
)
Y el pago esperado considerando esta tasa de inflacion, es:
(1 + r)
[E(X)− E
(X ∧ d
1 + r
)]1− F (d/(1 + r))
Seguimos con nuestro ejemplo. Supongamos una tasa de inflacion r = 10%. Recordemos que
el costo esperado por la perdida es 640 y el pago esperado 1250. Con un 10% de inflacion
tenemos:
E(X ∧ 500
1.1
)= E(X ∧ 454.55) =
2000
2
[1−
(2000
2000 + 454.55
)2]
= 336.08
y el costo esperado por perdida despues del efecto de inflacion es 1.1∗(1000−336.08) = 730.32,
que incrementa un 14.11% ((730.32− 640)/640), el pago sin inflacion que era de 640. Para
calcular el costo por el pago, primero debemos calcular
F (454.55) = 1−(
2000
2000 + 454.55
)3
= 0.459
55
de donde obtenemos que este costo es 730.32/(1 − 0.459) = 1350, que aumenta un 8% con
respecto al de 1250 sin inflacion.
Lımite de poliza
Lo opuesto al deducible es un lımite de poliza. Un lımite de poliza tıpico es un contrato
donde, para las perdidas menores a un umbral, u, la aseguradora paga la perdida total, pero
para aquellas mayores a u, la aseguradora solo paga u.
La v. a. asociada a esta reclamacion es Y = min(X, u), que puede escribirse como:
Y = (X ∧ u) =
X, si X ≤ u
u, si X > u
Con funciones de densidad y distribucion dadas por:
fY (y) =
fX(y), y < u
1− FX(u), y = u
FY (y) =
FX(y), y < u
1, y ≥ u
Observese que los resultados que hemos establecido para un deducible d, pueden adaptarse
directamente cuando se trata de un lımite de poliza, simplemente cambiando d por u.
Ahora desarrollemos nuestro ejemplo con un lımite en la poliza de 3000 y una tasa de in-
flacion del 10%. El costo esperado en este caso es:
E(X ∧ 3000) =2000
2
[1−
(2000
2000 + 3000
)2]
= 840
y la proporcion de reduccion es (1000 − 840)/1000 = 0.16. Despues de aplicar la tasa de
inflacion, el costo esperado es:
56
1.1 ∗ E(X ∧ 3000/1.1) = 1.1 ∗ 2000
2
[1−
(2000
2000 + 3000/1.1
)2]
= 903.11
con una proporcion de reduccion de (1100 − 903.11)/1100 = 0.179. El porcentaje de crec-
imiento entre estos costos es de 7.5% = 1 − (903.11/840), que es menor que la tasa de
inflacion. El efecto es opuesto al del deducible.
Coaseguro
En polizas con coaseguro, la cantidad de reclamo es proporcional a la cantidad de perdida
por un factor de coaseguro. Este factor de coaseguro α, 0 < α < 1, es la proporcion de
pago que le corresponde a la companıa aseguradora, mientras el poseedor de la poliza paga
la fraccion restante. La v.a. para este pago es:
Y = αX
cuya densidad puede expresarse como:
fY (y) =1
αfX
( yα
)y tiene valor esperado E(Y ) = αE(X).
Coaseguro, deducibles y lımites
Por supuesto, pueden aplicarse todas las modificaciones de una poliza que hemos visto: de-
ducible ordinario, lımite de poliza, coaseguro e inflacion para generar una poliza mas general.
En este caso la variable aleatoria asociada es:
Y = α(1 + r)
[(X ∧ u
1 + r
)−(X ∧ d
1 + r
)]que podemos reescribir
Y =
0, X <d
1 + r
α [(1 + r)X − d] ,d
1 + r≤ X <
u
1 + r
α(u− d), X ≥ u
1 + r
57
con un pago esperado por perdida
E(Y L) = α(1 + r)
[E(X ∧ u
1 + r
)− E
(X ∧ d
1 + r
)]
y valor esperado por pago
E(Y P ) =E(Y L)
1− FX(
d1+r
)Observese que podemos calcular todas las expresiones involucradas en esta ultimas formulas,
conociendo el modelo asociado a nuestra v.a. de perdida.
Ejemplo: Una companıa de seguros ofrece dos tipos de polizas: Tipo I y Tipo II. La de Tipo I
no tiene deducible, pero tiene un lımite de 3000. Por el contrario, la de Tipo II no tiene lımite,
pero tiene un deducible d. Las perdidas siguien una distribucion Pareto(α = 3, θ = 2000).
Encontrar d de tal manera que las dos polizas tengan la misma cantidad de perdida esperada.
E(TI) = E(X ∧ 3000) =2000
2
[1−
(2000
2000 + 3000
)2]
= 840
E(TII) = E [(x− d)+] =
∫ ∞d
(2000
x+ 2000
)3
dx =2000
2
[(2000
2000 + d
)2]
ya que E(TI) = E(TII), despejamos d, y tenemos que el deducible debe ser d = 182.18.
“Ostro”: Una companıa de mantenimiento de un hospital, paga cotidianamente el costo total
por uso de la sala de emergencia de sus clientes. Esta empresa ha visto que el costo sigue una
distribucion exponencial con media 1000. La cıa. esta evaluando la posibilidad de imponer
un deducible de 200 a sus clientes, por el uso de esta sala.
• Calcule la tasa de eliminacion de perdida debido al deducible de 200. Interprete esta tasa.
• Suponga que la cıa. decide imponer este deducible de 200 por el uso de la sala, ademas de
un lımite de 5000 y con un factor de coaseguro del 80%. Calcule la cantidad de reclamacion
esperada por el evento de perdida y la cantidad esperada por pago, que debe realizar la
58
empresa.
• Suponga una inflacion uniforme del 8%. Calcule los pagos del inciso anterior aplicando
esta tasa.
Primero, observamos que la parametrizacion de la exponencial que tiene sentido, de acuerdo
a la informacion es:
f(x) =1
1000e−x/1000
que tiene E(X) = 1000. Para nuestro primer punto, tenemos que calcular
E(X ∧ 200)
E(X)=
∫ 200
0
e−x/1000
1000=
1000 ∗ (1− e−0.2)1000
= 18.12%
El 18.12% de la perdida puede ser eliminada imponiendo un deducible de 200. Para nuestro
segundo punto, tenemos: d = 200, u = 5000 y α = 80%, y debemos calcular
E(Y ) = α [E(X ∧ u)− E(X ∧ d)]
Observemos que el segundo termino de la expresion entre corchetes cuadrados, es parte del
desarrollo que realizamos en el inciso anterior, y vale 181.2. Para el primer elemento de este
corchete, tenemos
E(X ∧ u) = E(X ∧ 5000) =
∫ 5000
0
e−x/1000 = 1000 ∗(1− e−5
)= 993.262
de estas dos cantidades tenemos que
E(Y ) = 0.8 ∗ [E(X ∧ 5000)− E(X ∧ 200)] = 0.8 ∗ (993.262− 181.2) = 649.649
que es la cantidad de reclamacion esperada por uso de la sala. Cuyo pago esperado es de:
E(Y )
1− FX(d)=
E(Y )
e−200/1000=
649.649
0.8187= 793.4831
59
El punto final se deja como ejercicio al lector. (El resultado es: 709.5099).
El impacto del deducible en la frecuencia de los reclamos
Un componente importante para analizar el efecto en las modificaciones de las polizas,
concierne al cambio en la distribucion de frecuencias de los pagos cuando se impone un de-
ducible o cuando se modifica. Cuando se impone o se incrementa el deducible, esperarıamos
pocos pagos por periodo, mientras que si se reduce, entonces esperarıamos realizar mas pagos.
Podemos cuantificar este proceso, asumiendo que la imposicion de modificaciones de cober-
tura no afecta el proceso que produce las perdidas individuales que seran pagadas por la
aseguradora. Por ejemplo, en aquellos individuos con una poliza con deducible de 250 por
dano en automovil, puede ser menos posible que se vean involucrados en un accidente que
aquellos con cobertura total.
Para iniciar nuestra discusion, supongamos que Xj representa la j-esima perdida y que no
tiene modificaciones de cobertura en la poliza. Sea NL el numero de perdidas. Ahora, consid-
eremos una modificacion en la cobertura tal que ν es la probabilidad de que las perdidas resul-
ten en pago. Por ejemplo, si hay un deducible d, entonces ν = Pr(X > d). Defina la variable
indicadora Ij como Ij = 1 si la j-esima perdida resulta en pago e Ij = 0 de otra forma. En-
tonces, Ij tiene distribucion Bernoulli con parametro ν y fgp PIj(z) = 1−ν+νz = 1+ν(z−1).
Entonces, NP = I1 + · · ·+INL representa el numero de pagos. Si I1, I2, · · · , son mutuamente
independientes e independientes de NL, entonces NP tiene una distribucion compuesta con
NL como la distribucion primaria y una Bernoulli como distribucion secundaria. Entonces
PNP = PNL
[PIj(z)
]= PNL [1 + ν(z − 1)]
En el caso especial en que la distribucion de NL depende de un parametro θ, tenemos:
PNL(z) = PNL(z; θ) = B [θ(z − 1)]
con B(z) una funcional independiente de θ. Entonces
PNP (z) = B [θ ([1 + ν(z − 1)]− 1)]
= B [νθ(z − 1)]
= PNL(z; νθ)
60
Este resultado implica que NL y NP pertenecen a la misma familia parametrica y solo el
parametro θ debe cambiar.
Ejemplo
Supongamos que la distribucion para la frecuencia de perdidas es BN(β = 3, r = 2), y
para las perdidas es Pareto(α = 3, θ = 1000). Queremos ver el efecto que tiene sobre la
distribucion de frecuencias, imponer un deducible de 250.
Recordemos que la BN tiene fgp dada por PN(z) = [1− β(z − 1)]−r. En este caso β toma
el rol de θ y B(z) = (1− z)−r. Entonces, NP debe tener tambien una distribucion BN con
parametros r∗ = r y β∗ = νβ. Dados los valores particulares de este ejemplo
ν = 1− F (250) =
(1000
1000 + 250
)3
= 0.512,
r∗ = 2 y β∗ = 3(0.512) = 1.536⇒ PNL(z; νθ) = BN(2, 1.536)
0 5 10 15
0.02
0.04
0.06
0.08
0.10
Impacto del deducible en la frecuencia de reclamaciones
x
0 5 10 15
0.00
0.05
0.10
0.15
x
BN(3,2)BN(1.536,2)
61
En general, los parametros de las distribuciones de frecuencia se habran modificado por v
siempre que haya pago, de la siguiente manera:
Distribucion Parametros modificadosPoisson λ∗ = λv
Poisson Modificada en cero p∗0 =pM0 − e−λ + e−vλ − pM0 e−vλ
1− e−λ; λ∗ = λv
Binomial q∗ = vq
Binomial Modificada en cero p∗0 =pM0 − (1− q)m + (1− vq)m − pM0 (1− vq)m
1− (1− q)m; q∗ = vq
Binomial Negativa β∗ = vβ
BinNeg Modificada en cero p∗0 =pM0 − (1 + β)−r + (1 + vβ)−r − pM0 (1 + vβ)−r
1− (1 + β)−r; β∗ = vβ
62
Modelo de perdidas agregadas
En el ejemplo anterior mencionamos (sin gran detalle) que las variables involucradas tenıan
una distribucion compuesta. Ahora introduciremos uno de los modelos mas importantes
en la teorıa del riesgo, que requiere de una distribucion compuesta de las variables que lo
determinan.
Introduccion
Las perdidas que tiene una companıa aseguradora pueden surgir de manera individual o
colectiva, dependiendo del tipo de seguro que se contrate; por este motivo, hay que poner es-
pecial atencion al rol que desempenan las caracterısticas de cada uno de ellos, en las perdidas
que contraiga la empresa. Los modelos que determinan el monto total que devenga una Cıa
por la acumulacion de los riesgos individuales de su portafolio de asegurados, son:
• Modelo de riesgo Individual, y
• Modelo de riesgo Colectivo.
63
Modelo Individual
Supongamos que tenemos un portafolio de n polizas individuales de seguros vigentes por,
digamos, un ano. Definamos como qj la probabilidad de que el j-esimo asegurado efectue exac-
tamente una reclamacion en el periodo; lo que implica que se cumple la igualdad, pj+qj = 1,
que significa que no puede haber mas de una reclamacion por cada asegurado.
Un ejemplo de esta situacion es el que se presenta a traves de contratos para grupos de vida,
en donde se cubre a cierto numero de personas n , y cada una posee diferentes coberturas
de acuerdo a las categorıas que se establecen para su grupo. Esta situacion produce que las
personas tengan distintas probabilidades de perdidas, sujetas a sus caracterısticas personales
o cualquier otra condicion que exista y se determine en el contrato.
Para fijar ideas, supongamos un portafolio con n polizas, una poliza por individuo y con
vigencia a lo largo de un periodo de tiempo establecido. Entonces qj es la probabilidad
de que el j-esimo asegurado efectue exactamente una reclamacion durante este periodo, y
(pj = 1 − qj) que no haga ninguna reclamacion. Esta variable aleatoria es evidentemente
Bernoulli que asigna valores de 1 y 0 a estos eventos, respectivamente, denotemosla como
Rj. Ahora bien, una vez que la j-esima poliza efectue una reclamacion, el impacto de la
misma se vera reflejado en el monto que la companıa aseguradora debera asumir. Definimos
entonces la variable aleatoria Bj > 0, (Rj⊥Bj), como el monto de reclamacion de la j-esima
poliza. Por lo tanto, el monto de la j-esima poliza queda definido por:
Xj =
Bj si Rj = 1 y ocurre con probabilidad qj
0 si Rj = 0 y ocurre con probabilidad 1− qj
Entonces, el monto total por reclamaciones o monto agragado que debe asumir la companıa
aseguradora por el concepto de la reclamaciones de sus asegurados, en el modelo individual,
esta dado por la variable aleatoria
S =n∑j=1
Xj =n∑j=1
BjRj
Este modelo se conoce tambien como el modelo de perdidas agregadas.
64
El nombre de modelo individual se debe a que supone conocer las probabilidades de recla-
macion y posible monto de reclamacion de todos y cada uno de los asegurados de manera
individual. Una posible desventaja es que presupone que el numero de asegurados en la
cartera se mantiene constante (no es aleatorio) durante todo el tiempo de vigencia del seguro.
Entonces, nuestro objetivo es conocer las caracterısticas estadısticas de esta variable S, tales
como: funcion de densidad, distribucion, media, varianza, funcion generadora de momentos,
etc.
Supongamos que cada variable aleatoria, Xj, tiene asociada una funcion de distribucion
FXj (x) , entonces la funcion de distibucion de S queda en terminos de convoluciones como:
FS (x) = (FX1 ∗ · · · ∗ FXn) (x)
No obstante el calculo de convoluciones no es, en general, una tarea facil, por lo que requer-
imos de maneras alternativas para estudiar esta variable aleatoria. Denotemos por GBj a la
funcion de distribucion de Bj. Entonces, algunas caracterısticas de esta variable se enuncian
en la siguiente proposicion
Proposicion
1. E (S) =n∑j=1
qjE (Bj)
2. V (S) =[qjV (Bj) + qjpjE2 (Bj)
]
3. FXj(x) =
(1− qj) + qjGBj(x), x ≥ 0
0 , x < 0
4. MXj(t) = (1− qj) + qjMBj(t)
5. MS(t) =n∏j=1
[(1− qj) + qjMBj(t)
]
Dem
65
1.- E (S) =n∑j=1
E (Xj) =n∑j=1
E (BjRj) =︸︷︷︸por independencia
n∑j=1
E (Bj)E (Rj) =n∑j=1
qjE (Bj)
2.- Observemos que
V (BjRj) = E(B2jR
2j
)− E2 (BjRj)
= qjE(B2j
)− q2jE2 (Bj)
= qj[V (Bj) + E2 (Bj)
]− q2jE2 (Bj)
= qjV (Bj) +(qj − q2j
)E2 (Bj)
= qjV (Bj) + pjqjE2 (Bj)
Por lo que
V (S) =n∑j=1
V (BjRj) =︸︷︷︸idependencia
n∑j=1
[qjV (Bj) + pjqjE2 (Bj)
]3.- ∀x ≥ 0,
FXj(x) = P (Xj ≤ x) = P (BjRj ≤ x)
= P (BjRj ≤ x|Rj = 0)P (Rj = 0) + P (BjRj ≤ x|Rj = 1)P (Rj = 1)
= P (0 ≤ x|Rj = 0) pj + P (Bj ≤ x|Rj = 1) qj
= 1 ∗ pj + qjGXj(x)
4.-
MXj(t) = E(etXj
)= E
(etBjRj
)= E
(etBjRj |Rj = 0
)P (Rj = 0) + P
(etBjRj |Rj = 1
)P (Rj = 1)
= pj + qjMBj(t)
5.- MS(t) = E(et∑nj=1Xj
)= E
(et∑nj=1BjRj
)=︸︷︷︸
independencia
n∏j=1
[pj + qjMBj(t)
]
66
Encontrar la distribucion de S, por lo general, es complicada, por tal motivo no se utilizan
las convoluciones como una alternativa para obtenerla. Para lidiar con esta situacion, se
han desarrollado metodos, esencialmente de aproximacion numerica, que proporcionan esta
distribucion de las perdidas agregadas en un modelo individual.
El modelo colectivo de riesgo
Este modelo presenta las perdidas agregadas como una suma aleatoria de variables aleato-
rias, donde N es la variable aleatoria del numero de reclamaciones realizadas y X1, X2, ..., XN
son las variables aleatorias independientes e identicamente distribuidas, que representan los
montos de cada reclamacion. La especificacion formal del modelo es la siguiente
Sea Xj la reclamacion de pago realizada por el j-esimo asegurado, y sea N el numero aleato-
rio de reclamaciones. Al total o (agregado) de reclamaciones:
S = X1 +X2 + · · ·+XN =N∑j=1
Xj, con S = 0 cuando N = 0
se le conoce como modelo agregado de reclamaciones . Otros nombres que recibe en la lit-
eratura actuarial son modelo colectivo de riesgos y el modelo compuesto de frecuencias. Los
supuestos del modelo son:
• Condicional a N = n, las variables aleatorias X1, X2, ..., XN son i.i.d.
• Condicional a N = n, la distribucion comun de X1, X2, ..., XN no depende de n
• La distribucion de N no depende de ninguna manera de los valores de X1, X2, ..., XN .
Tenemos, N : frecuencia de reclamaciones y X: severidad de las reclamaciones, por lo tanto S
tiene una distribucion compuesta. Entonces, la cuestion central es encontrar la distribucion
de S.
Ya que el objetivo es encontrar la distribucion que mejor ajuste a S, lo haremos a partir de la
distribucion que ajustemos para N y de la distribucion de las X′js. Por lo que la frecuencia
y severidad se modelaran de forma separada pues representa muchas ventajas, entre las que
estan las siguientes:
67
• Debido a que el numero esperado de reclamaciones se ve afectado por el numero de polizas
que se vayan asegurando, y se ira actualizando basado en datos anteriores, el hecho de tener
por separado la frecuencia es mas practico para ir modificando nuestros datos.
• El efecto de factores economicos como la inflacion se ven reflejados en las perdidas de
la companıa, por lo que identificar estos factores en los montos agregados se puede volver
complicado, y si analizamos la frecuencia y severidad por separado esto resulta mas sencillo.
• El impacto de deducibles, coaseguros y lımites de polizas, se estudia de manera mas sencilla,
tanto en las distribuciones de severidad, como en las de frecuencia.
• Debido a que la forma de la distribucion de S depende de las distribuciones de X y N , el
conocer cada una de ellas servira para ajustar mejores distribuciones para S. Por ejemplo,
si la cola de la distribucion de X es mas pesada en comparacion con la de N , la forma de
la cola que tendran las perdidas agregadas sera determinada por la severidad y sera mas
insensible a la frecuencia.
Entonces, los pasos a seguir para hallar la distribucion mas adecuada para el modelo prop-
uesto de S son:
1. Desarrollar un modelo de la distribucion para la frecuencia N basada en datos.
2. Desarrollar un modelo para la distribucion comun de las perdidas X′js basandonos en
los datos.
3. Usando estos dos modelos, llevar a cabo los calculos necesarios para encontrar la dis-
tribucion de S.
Funciones de distribucion y densidad de S
La funcion de distribucion de S esta dada por
FS(x) = Pr(S ≤ x) =∞∑n=0
pnPr(S ≤ x|N = n) =∞∑n=0
pnF∗nX (x)
Con FX(x) = Pr(X ≤ x) la funcion de distribucion comun de las Xjs y pn = Pr(N = n).
F ∗nX (x), es la convolucion de las n v.sa.s, y se puede calcular de forma recusiva como
68
F ∗0X (x) =
0 x < 0
1, x ≥ 0
y
F ∗kX (x) =
∫ ∞−∞
F(k−1)X (x− y)dFX(y) para k = 1, 2, ...
Las colas de esta distribucion, que son de interes, se pueden calcular como
1− FS(x) =∞∑n=1
pn [1− F ∗nX (x)]
Su funcion de densidad esta dada por:
fS(x) = Pr(S = x) =∞∑n=0
pnf∗nX (x), x = 0, 1, ...
cuyo calculo recursivo es
f ∗kX (x) =
∫ ∞−∞
f(k−1)X (x− y)fX(y)dy para k = 1, 2, ...
Si X es discreta, con probabilidades en 0, 1, 2, ... las respectivas convoluciones se pueden
calcular sustituyendo la integral por una suma sobre los valores que toma X.
La fgp de S es
PS(z) = E(zS) =∞∑n=0
E(zX1+X2+···+XN |N = n)Pr(N = n)
=∞∑n=0
E
[n∏j=1
zXj
]Pr(N = n)
=∞∑n=0
[PX(z)]n Pr(N = n)
= E[PX(z)N
]= PN [PX(z)]
69
Siguiendo las mismas consideraciones, la f.g.m de S se obtiene, por
MS (t) = E(etS)
= E[E[etS | N
]]= E
[E[et(X1+···+XN ) | N
]]
=∞∑n=0
E[et(X1+···+XN ) | N = n
]P (N = n)
=∞∑n=0
E[et(X1+···+Xn) | N = n
]P (N = n) =
∞∑n=0
E[et(X1+···+Xn)
]P (N = n)
=∞∑n=0
E
[n∏j=1
etXj
]P (N = n) =
∞∑n=0
[n∏j=1
E[etXj
]]P (N = n)
=∞∑n=0
(E[etX])n P (N = n) =
∞∑n=0
(MX (t))n P (N = n) = E[(MX (t))N
]
= E[elog((MX(t))N)
]= E
[eN log((MX(t)))
]= MN (log(MX (t))
Por lo tanto, obtenemos
MS (t) = MN (log(MX (t))
y dejandola en terminos de la f.g.p.
MS (t) = PN (MX (t))
Momentos de S
Ahora desarrollaremos algunos momentos de esta variable aleatoria, que seran de utilidad
posteriormente.
E (S) = E [E [S | N ]] = E
[E
[N∑j=1
Xj|N
]]
70
=∞∑n=0
E [X1 +X2 + · · ·+XN | N = n]P (N = n)
=∞∑n=0
E [X1 +X2 + · · ·+Xn | N = n]P (N = n)
ya que las X′js son v.a.i.i.d. su esperanza es la misma, digamos, E [X], entonces:
∞∑n=0
E [X1 +X2 + · · ·+Xn | N = n]P (N = n) =∞∑n=0
nE [X]P (N = n) = E [X]E [N ]
E (S) = E [X]E [N ]
La varianza de S se puede calcular por medio de la formula de varianza iterada donde
V (S) = E [V (S | N)] + V [E (S | N)] = E [NV (X)] + V [NE (X)]
= E (N)V(X) + V(N)E2 (X)
=⇒ V (S) = E (N)V(X) + V(N)E2 (X)
Y finalmente su tercer momento alrededor de la media, es:
E[(S − E (S))3
]= E (N)E
[(X − E (X))3
]+3V (N)E (X)V (X)+E
[(N − E (N))3
]E (X)3
Hallar explıcitamente la distribucion de S no es trivial, por lo que se utilizan diversas aproxi-
maciones a su distribucion o soluciones numericas; no obstante, existen algunas elecciones de
los modelos para N y X que permiten tener resultados analiticos para ciertas caracterısticas
de esta distribucion.
Algunos modelos compuestos
Modelo Binomial Compuesto
Si la variable de frecuencia de reclamaciones, N se distribuye Binomial (n, p), y los montos
de reclamacion, X, tienen una distribucion con soporte en los reales positivos, entonces, S
tiene una distribucion binomial compuesta. Sus caracterısticas numericas son:
71
E (S) = npE (X)
V ar (S) = np(E (X2)− pE (X)2
)MS (t) = (1− p+ pMX (t))n
Modelo Binomial Negativo Compuesto
Cuando el numero de reclamaciones tiene una distribucion Binomial Negativa entonces el
riesgo S se distribuye Binomial Negativa Compuesta y se tiene:
E (S) = rβE (X)
V ar (S) = rβ(E (X2) + βE (X)2
)MS (t) =
[1
1 + β (1−MX (t))
]rModelo Poisson Compuesto
Bajo los mismos supuestos que en los modelos anteriores, si N se distribuye Poisson(λ),
entonces S tiene una distribucion Poisson compuesta. Con
E (S) = λE (X)
V ar (S) = λE (X2)
MS (t) = eλ(MX(t)−1)
Supongamos que N ∼ Poisson(λ) y que Xj ∼ Bernoulli(q), aplicando lo anterior para la
distribucion de S, tenemos que
MS (t) = eλ(MX(t)−1); donde MN (t) = eλ(et−1) y en particular para
MX1 (t) = (1− q) + qet
por lo que MS (t) = eλ((1−q)+qet−1) = eλ(qe
t−q) = eλq(et−1)
∴ S ∼ Poisson(λq)
Observacion importante: Aunque estos modelos tienen una forma analıtica en estas car-
acterısticas numericas, ninguna de ellas, salvo el ultimo caso, corresponde a la densidad o
distribucion de S. Es decir, el problema de encontrar la distribucion de las perdidas agre-
gadas, persiste.
72
Distribucion de la convolucion de Poisson compuestas
Una caracterıstica muy util para nuestros fines es que la Poisson compuesta es cerrada bajo
convolucion. Especıficamente
Supongase que Sj tiene una distribucion Poisson compuesta con parametros λj y funcion
de distribucion para severidades Fj (x) para j = 1, 2, ..., n. Ademas, que S1, S2, ..., Sn son
independientes. Entonces S = S1 + S2 + · · ·+ Sn tiene una distribucion Poisson compuesta
con parametro λ =n∑j=1
λj y funcion de distribucion de severidad F (x) =n∑j=1
λjλFj (x) .
Dem:
Sea Mj (t) la f.g.m. de Fj (x) para j = 1, 2, ..., n. Entonces Sj tiene f.g.m. dada por:
MSj (t) = E(etSj)
= eλj(Mj(t)−1) y por la independencia de las S′js, S tiene f.g.m.
MS (t) =n∏j=1
MSj (t) =n∏j=1
exp (λj [Mj (t)− 1]) = exp
([n∑j=1
λjMj (t)−n∑j=1
λj
])
= exp
([n∑j=1
λjMj (t)
]− λ
)= exp
(λ
[n∑j=1
λjλMj (t)
]− 1
)
Debido a quen∑j=1
λjλMj (t) es la f.g.m. de F (x) =
n∑j=1
λjλFj (x) , entonces MS (t) tiene la
forma de la f.g.m. de una distribucion Poisson compuesta.
Ejemplo
S1 y S2 son distribuciones Poisson compuestas con parametros λ1 = 3 y λ2 = 2, y funcion
de severidad individual
x f1(x) f2(x)1 0.25 0.102 0.75 0.403 0.00 0.404 0.00 0.10
73
determine la media y varianza de S.
S = S1 + S2 tiene una distribucion Poisson compuesta con media λ = 3 + 2 = 5, y con
funcion de severidad
x Pr(S = s)1 (3/5)*(0.25)+(2/5)*(0.10)=0.192 (3/5)*(0.75)+(2/5)*(0.40)=0.613 0+(2/5)*(0.40)=0.164 0+(2/5)*(0.10)=0.04
de donde obtenemos
E(S) = 0.19 + 2 ∗ 0.61 + 3 ∗ 0.16 + 4 ∗ 0.04 = 2.05 y V ar(S) = E [(S − 2.05)2] = 0.5075
Modificaciones en los modelos agregados
Una vez definidos estos dos modelos para perdidas agregadas, corresponde ahora incluir
las modificaciones que ellos sufren a traves de las modificaciones que sufren las polizas que
los componen. Es decir, debemos encontrar las variables por perdida y por pago para S,
similares a las que hemos definido para las variables individuales, ya que la distribucion
de S tambien se vera afectada una vez que apliquemos modificaciones en la cobertura de
contratos.
Supongamos un panorama simple bajo el cual el portafolio de perdidas se modifique debido
a la aplicacion de un deducible , d. Como la variable aleatoria S depende de N y de las
X′js , entonces se tendremos que considerar dos posibilidades
• Supongamos que NL es la variable aleatoria por perdida que modela la frecuencia de las
perdidas agregadas, mientras que las X′js determinan la severidad de las mismas. En este
escenario a traves de la variable por perdida Y L modificaremos las X′js que representan los
montos, pues recordemos que:
Y L = (X − d)+ =
0 X ≤ d
X − d X > d
74
ası que la severidad de las reclamaciones se vera afectada. En este caso Y Lj representa el
pago por la j-esima perdida, mientras que la frecuencia seguira distribuyendose de la misma
forma puesto que, como su nombre lo indica, estamos considerando las perdidas totales que
sufre la companıa sin importar aquellas que realmente se pagan.
Entonces, el modelo colectivo queda
S = Y L1 + Y L
2 + · · ·+ Y LNL
donde S = 0 si NL = 0
• La segunda opcion es considerar a Y P , la variable de pago, que reflejara los montos pagados
por la companıa aseguradora una vez que han excedido el valor del deducible, d, pero ademas
de ello, en este caso, la variable que modela la frecuencia de las reclamaciones NP tambien se
modificara, y se vera reflejado en el numero de pagos efectuados. Entonces, los parametros
para NP cambiaran conforme a lo que se reviso en las modificaciones de cobertura para
modelos de frecuencia, donde se considera a la constante ν como la probabilidad de pago
por parte de la aseguradora. Entonces el modelo serıa
S = Y P1 + Y P
2 + · · ·+ Y PNP
donde S = 0 si NP = 0 y Y Pj es la variable de pago que representa el monto de la j-esima
perdida tal como se definio Y P anteriormente.
Es importante considerar las modificaciones de los contratos de seguros en los modelos colec-
tivos, debido a que, bajo circunstancias apegadas a la realidad, generalmente esta informacion
es la que se manejara.
Ya sabemos que existe una relacion entre las variables de perdida y de pago: Y P = Y L|Y L >
0. Luego, retomando el concepto de ν como la probabilidad de pago, las funciones de dis-
tribucion de estas variables, guardan la siguiente relacion:
FY L = (1− v) + vFY P (y) ; y ≥ 0
75
porque 1− ν = P[Y L = 0
]= FY L (0) .
Con una relacion equivalente para sus f.g.m.
MY L (t) = (1− ν) + νMY P (t)
ya que
E[etY
L]
= E[etY
L|Y L = 0]P[Y L = 0
]+ E
[etY
L|Y L > 0]P[Y L > 0
]= E
[1|Y L = 0
](1− ν) + E
[etY
L|Y L > 0]ν
= (1− ν) + νMY P (t)
Ademas, para el numero de perdidas NL y el numero de pagos NP se tiene esta relacion con
sus f.g.p.
PNP (z) = PNL (1− v + vz)
donde PNP (z) = E(zN
P)
y PNL (z) = E(zN
L).
Finalmente con los resultados del Modelo Colectivo, las f.g.m. de S en terminos de las
variables por perdida y por pago son:
MS (t) = E(etS)
= PNL (MY L (t))
y
MS (t) = E(etS)
= PNP (MY P (t))
que guardan la siguiente relacion:
PNL [MY L (t)] = PNL [1− v + vMY P (t)] = PNP [MY P (t)]
76
Ejemplo
En una cobertura de seguros, se sabe que el numero de perdidas en el Modelo de Riesgo
Colectivo se distribuyen BinNeg(β = 1.5, r = 12) y que los montos de las perdidas (X′js)
tienen distribucion Pareto(α = 3, θ = 150). Ademas de esta informacion, se determina que
la inflacion sera del 3% y se aplicaran las siguientes modificaciones de cobertura.
Deducible d = 40
Lımite de poliza = 250
Coaseguro = 85%
Determinar la esperanza y la varianza de las perdidas agregadas, considerando que el monto
de las perdidas se ve modificado por la variable aleatoria de perdida y por la variable aleatoria
de perdida en exceso (o variable de pago).
Primero encontremos E (S) y V (S), cuando las X′js se modifican por Y L. Entonces, el
orden en el que consideramos las modificaciones son: primero la inflacion, posteriormente el
deducible, el lımite de poliza y finalmente el coaseguro.
Considerando estas modificaciones para cada Xj, la variable aleatoria de perdida queda:
Y L =
0 X <40
1.03
0.85 [(1.03)X − 40]40
1.03≤ X <
250
1.03
0.85(250− 40) X ≥ 250
1.03
=⇒
E[Y L]
= α (1 + r)
[E(X ∧ u
1 + r
)− E
(X ∧ d
1 + r
)]
= 0.85 (1.03)
[E(X ∧ 250
1.03
)− E
(X ∧ 40
1.03
)]
Para la Pareto(3, 150)
77
E(X ∧ 250
1.03
)=
150
2
[1−
(150
250 + 150
)2]
= 64.058
E(X ∧ 40
1.03
)=
150
2
[1−
(150
250 + 150
)2]
= 27.676
=⇒ E[Y L]
= 0.85(1.03) [64.058− 27.676] = 31.852
Luego para NL sabemos que se distribuye BinNeg(1.5, 12) pero esta variable, que representa
el numero de reclamaciones del modelo colectivo, no se modifica por ser variable de pedida
y no de pago.
=⇒ E(NL)
= rβ = 12 ∗ 1.5 = 18
Por los resultados anteriores
E (S) = E(Y L)E(NL)
= 31.85244 ∗ 18 = 573.3439
Aparte de esta situacion, como el numero de reclamaciones se distribuye Binomial Negativa,
el modelo se reduce a un Modelo Binomial Negativo Compuesto, razon por la cual, como se
mostro en la seccion anterior, la varianza de S es :
V(S) = rβ[E((Y L)2)
+ βE(Y L)2]
.
Entonces, hay que obtener el segundo momento en terminos de Y L, i.e., E[(Y L)2
], que, de
manera general, se calcula como
E[(Y L)2]
= α2(1 + r)2E[(X ∧ u∗)2
]− E
[(X ∧ d∗)2
]− 2d∗E (X ∧ u∗) + 2d∗E (X ∧ d∗)
con u∗ =
u
1 + ry d∗ =
d
1 + r.
Por lo que en nuestro caso este calculo es
E[(Y L)2]
=
(0.85)2 (1.03)2E
[(X ∧ 250
1.03
)2]− E
[(X ∧ 40
1.03
)2]− 2
(40
1.03
)E(X ∧ 250
1.03
)+ 2
(40
1.03
)E(X ∧ 40
1.03
)
78
que observamos es bastante laborioso. Haciendo estos calculos en R, tenemos que
E[(Y L)2]
= 4217.442
Finalmente
V ar(S) = rβ[E((Y L)2)
+ βE(Y L)2]
= 18[4217.442 + 1.5 (31.85244)2
]= 103307.6
Como segundo punto tambien debemos calcular la E (S) y V (S) considerando a las Y P ′j s y
a NP como la frecuencia.
La funcion para Y P , a diferencia de Y L, es solo tomar en cuenta que los valores paraX <40
1.03
no estan definidos, ası que para la E[Y P]
basta dividir E[Y L]
entre SX(
d1+r
)
=⇒ SX
(40
1.03
)= SX (38.83495) =
(150
38.83495 + 150
)3
= 0.501217
De ahı E[Y P]
=E[Y L]
SX(
d1+r
) =31.85244
0.501218= 63.55007
Para NP debemos obtener E[NP], entonces, como es la frecuencia correspondiente al pago
que realiza la aseguradora, se modifica respecto al valor de ν, donde :
ν = P(X >
d
1 + r
)= 1− FX
(40
1.03
)
esto porque recordemos que es la probabilidad de pago una vez que se ha aplicado inflacion
y deducible en el numero de reclamaciones, entonces
ν = SX
(40
1.03
)= 0.501217971983
Por lo tanto, la distribucion es una Binomial Negativa pero con parametros modificados:
r = r∗ = 12 y β∗ = vβ = 0.751826958
79
=⇒ E[NP]
= rβ∗ = 9.021923496.
De esta forma E (S) = E[Y P]E[NP]
= 627.6041864
La V (S) = rβ∗[E[(Y P)2]
+ β∗E(Y P)2]
=⇒E[(Y P)2]
=E[(Y L)2
]
1− FX(
401.03
) =4963.722677
0.501217= 9903.321418
=⇒ V (S) = 9.021923496[9903.321418 + 0.751826958 (69.56434365)2
]= 122170.9259
Bajo el analisis de las variables por pago y por perdida en este modelo de riesgo colectivo,
la E (S) y V (S) son muy similares entre sı.
80
Metodos para encontrar la distribucion de S
Aproximaciones
Una vez que hemos presentado y analizado los modelos de riesgo individual y colectivo, junto
con algunas de sus caracterısticas, observamos que, en general, no obtuvimos resultados que
nos permitieran encontrar la distribucion de S. Una manera de salvar esta dificultad es a
traves de aproximaciones a esta distribucion, que se utilizan tanto para el modelo individual
como para el modelo colectivo. Presentamos a continuacion las siguientes:
• Normal
• Lognormal
• Gamma Trasladada
• Poisson Compuesta
Aproximacion Normal
A traves del Teorema Central del Lımite se puede aproximar la distribucion de S por medio
de una distribucion normal.
Generalmente, este metodo de aproximacion es de mayor utilidad cuando el numero de
reclamaciones N de nuestro riesgo S es muy grande, y por consecuencia, la E [N ] tambien
resulta ser grande.
Proposicion. Para cualquier s > 0
FS (s) = P [S ≤ s] ≈ φ
(s− E (S)√
V (S)
)
Ahora bien, suponiendo que tanto la Severidad como la Frecuencia de los datos son discretas,
entonces la distribucion de las perdidas agregadas sera discreta; por lo cual, si se desea utilizar
este metodo de aproximacion, sera necesario aplicar antes una Correccion de Continuidad.
Es decir, supongase que se quiere conocer P [n ≤ S ≤ m] , para utilizar la aproximacion nor-
mal, lo unico que se hace es extender el intervalo de [n,m] al intervalo[n− 1
2,m+ 1
2
], por lo
cual la probabilidad bajo la correccion de continuidad sera P[n− 1
2≤ S ≤ m+ 1
2
]. Una vez
81
realizada esta correccion, se hace el mismo procedimiento de aproximacion, considerando la
E (S) y V (S) originales del riesgo S.
Ejemplo
Una companıa aseguradora tiene una cartera con polizas de seguro de vida con las carac-
terısticas que se muestran en la tabla. Utilizando el modelo de riesgo individual, realizar
la aproximacion normal de tal manera que podamos encontrar el valor de s bajo el cual
P [S ≤ s] = 0.95, i.e., deseamos encontrar el VaR de la distribucion de S.
i # de polizas Probabilidad de reclamacion Monto de Reclamacion1 1000 0.05 102 2000 0.10 53 500 0.02 20
Primero veamos lo que sucede con E (Bi) y V(Bi) para i = 1, 2, 3. Primeramente, tenemos
que
para i=1, P (B1 = 10) = 1, P (B1 = x) = 0 si x 6= 10
para i=2, P (B2 = 5) = 1, P (B2 = x) = 0 si x 6= 5
para i=3, P (B3 = 20) = 1, P (B3 = x) = 0 si x 6= 20
Entonces
E (B1) = 1 ∗ 10 + 0 ∗ x = 10 y V ar(B1) = 102 ∗ 1− 102 = 0
E (B2) = 5 y V ar(B2) = 0
E (B3) = 20 y V ar(B3) = 0
Entonces E (S1) =1000∑j=1
0.05 ∗ 10 = 500, E (S2) =2000∑j=1
0.10 ∗ 5 = 1000,
E (S3) =500∑j=1
0.02 ∗ 20 = 200
=⇒ E (S) = 500 + 1000 + 200 = 1700
82
Luego V(S1) =1000∑j=1
(0.05 ∗ 0 + 0.05 ∗ 0.95 ∗ 102
)= 4750
V(S2) =2000∑j=1
(0.1 ∗ 0 + 0.1 ∗ 0.9 ∗ 52
)= 4500
V(S3) =500∑j=1
(0.02 ∗ 0 + 0.02 ∗ 0.98 ∗ 202
)= 3920
Entonces
V(S) = 4750 + 4500 + 3920 = 13170
Se quiere P [S ≤ s] = 0.95, entonces P
[S − E (S)√
V (S)≤ s− E (S)√
V (S)
]= 0.95 el cuantil del 95%
para una N (0, 1) es 1.644854
Por lo tanto s =√V (S) ∗ 1.644854 + E (S) =
√13170 ∗ 1.644854 + 1700
= 1888.764
83
0 500 1000 1500 2000 2500 3000
0.00
000.
0005
0.00
100.
0015
0.00
200.
0025
0.00
300.
0035
Aproximación Normal
s
f S(s
)
84
Aproximacion Lognormal
Cuando la E (N) no es lo suficientemente grande, y por lo mismo, la distribucion de S posee
una cola pesada, la distribucion normal deja de ser apropiada para aproximar la distribucion
del riesgo. Es por esta situacion que se sugiere usar la aproximacion Lognormal aunque no
exista la teorıa suficiente para sustentar que dicha aproximacion sea buena.
Proposicion
Para cualquier s > 0
FS (s) = P [S ≤ s] ≈ φ
(ln (s)− µ
σ
)Recordando que para la distribucion Lognormal se tiene la siguiente esperanza y segundo
momento que son indispensables para obtener lo valores de µ y σ2 :
E (S) = eµ+σ2
2 y E (S2) = e2µ+2σ2
Ejemplo
Suponiendo un modelo de riesgo colectivo para las perdidas agregadas de una companıa
aseguradora y, en especıfico, un modelo Poisson compuesto donde N ∼ Poisson(λ = 0.7),
mientras que los montos de reclamacion se distribuyen Gamma con α = 2, θ = 150. Utilizar
la aproximacion normal y lognormal para determinar las perdidas agregadas por arriba de
300.
Sabemos que E (S) = λE (X) y V (S) = λE (X2)
Ya que X es gamma(α, θ). Entonces E(X) = αθ y V(X) = αθ2. Por lo que
=⇒ E (X) = αθ = 300 y E (X2) = V (X) + E (X)2 = 45000 + 3002 = 135000
=⇒ E (S) = 0.7 ∗ 300 = 210 y V (S) = 0.7 ∗ 135000 = 94500
Para la aproximacion normal FS (300) = P [S ≤ 300] = φ
(300− 210√
94500
)85
= φ (0.292770022) = 0.615151
Las perdidas agregadas por arriba de 300 tienen una probabilidad de 0.384849 para la aprox-
imacion normal
Para la aproximacion lognormal E (S) = eµ+σ2
2 = 300 y E (S2) = e2µ+2σ2= 135000
Entonces
ln (300) = µ+ σ2
2y ln(135000) = 2µ+ 2σ2, =⇒ σ2 = 0.4054 y µ = 5.50108
Finalmente FS (300) = P [S ≤ 300] = φ
(ln (300)− 5.50108√
0.4054
)= φ (0.318364182) = 0.6249019
Mientras que con la aproximacion lognormal las perdidas agregadas que rebasan 300 acumu-
lan una probabilidad de 0.375098
0 500 1000 1500 2000
0.00
000.
0002
0.00
040.
0006
0.00
080.
0010
0.00
12
Aproximación Normal
s
f S(s
)
0 500 1000 1500 2000
0.00
000.
0005
0.00
100.
0015
0.00
200.
0025
0.00
30
Aproximación Log−Normal
s
f S(s
)
A continuacion se muestra graficamente la comparacion de ambas aproximaciones con re-
specto a sus funciones de densidad resultantes, en donde se puede observar que para valores
86
muy grandes la cola de la distribucion lognormal se encuentra por encima de la funcion de
densidad normal, situacion que caracteriza este tipo de distribucion. Ademas, algo que se
puede destacar es que, aunque las esperanzas de las dos distribuciones no estan tan alejadas,
la varianza de la distribucion normal es mayor, por poco mas del doble que la varianza de la
distribucion lognormal. Y aunque para valores entre 150 y 300 las funciones de distribucion
acumulen probabilidades similares, en realidad para valores pequenos la distribucion normal
acumula probabilidades mayores a la lognormal y vicerversa, para valores grandes se va acu-
mulando mayor probabilidad en la distribucion lognormal contra la normal.
0 500 1000 1500 2000
0.00
000.
0005
0.00
100.
0015
0.00
200.
0025
0.00
30
Comparaciones aproximaciones Normal vs. Log−Normal
s
f S(s
)
Aproximación NormalAproximación Log−Normal
87
0 500 1000 1500 2000
0.4
0.6
0.8
1.0
Comparaciones aproximaciones Normal vs. Log−Normal
s
FS(s
)
Aproximación NormalAproximación Log−Normal
88
Aproximacion Gamma trasladada
Como su nombre lo expresa, bajo esta aproximacion supondremos que el riesgo S asume
una distribucion Gamma, pero para conocer exactamente los parametros que ajustan a
esta distribucion, se debe igualar las caracterısticas numericas de la distibucion de S a las
caracterısticas numericas de una nueva variable aleatoria que es:
k + Z
donde k es una constante y Z es la variable aleatoria que se distribuye Gamma(α, θ) y tiene
f.d.p.
fZ (z) =zα−1e−
zθ
θαΓ (α), z > 0
Entonces, primero se suponen conocidos o estimados los valores de E (S) = µ, V ar (S) = σ2 y
el coeficiente de sesgoE[(S − E (S))3
][V ar (S)]3/2
= τ, τ > 0; estos se igualaran a sus correspondientes
de la v.a. k + Z que son:
• E (k + Z) = k + αθ
• V ar (k + Z) = θ2α
•E[(k + Z − E (k + Z))3
][V ar (k + Z)]3/2
=2√α
De forma que
µ = k + αθ σ2 = θ2α τ =2√α
Resolviendo el sistema de ecuaciones para determinar los valores k, α y θ.
√α =
2
τ=⇒ α =
4
τ 2, luego de σ2 = θ2α sustituyendo α se tiene
89
σ2 = θ24
τ 2=⇒ θ2 =
σ2τ 2
4=⇒ θ =
στ
2
y finalmente de µ = k + αθ se obtiene k
k = µ− αθ = µ− 4
τ 2στ
2= µ− 2σ
τ.
Ası, por medio de la aproximacion gamma trasladada, el riesgo S tiene una distribucion
aproximada
S ∼ µ− 2σ
τ+Gamma
(4
τ 2,στ
2
)
Habra ocasiones en las cuales el parametro θ puede ser reemplazado por 1θ
y basta invertir
las igualdades para construir la distribucion Gamma de S.
Esta aproximacion generalmente se sugiere realizarla cuando la distribucion de S se muestra
sesgada hacia la derecha, razon por la cual τ > 0; y porque la forma que toma dicha
distribucion es aproximadamente la de una densidad Gamma con parametros α y θ; sin
embargo, ademas de considerar esto, se le suma la constante k para obtener menos errores
en el ajuste.
Finalmente se llega a la siguiente proposicion.
Proposicion
Para cualquier s > 0.
FS (s) = P [S ≤ s] ≈ Gamma (s− k;α, θ)
Ejemplo
Supongamos que, bajo el modelo Poisson compuesto, el numero de reclamaciones tiene dis-
tribucion Poisson(λ = 10) y el monto de las reclamaciones Xi ∼ χ2(4). Determinar FS (8)
por medio de la aproximacion gamma trasladada.
90
En general χ2(k) es una distribucion Gamma
(k
2, 2
)=⇒ Para cada Xi se tiene que fX (x) =
x2−1e−xθ
22Γ (2)donde Xi ∼ Gamma(2, 2)
Lo primero es encontrar los tres primeros momentos de S, para lo cual utilizaremos las
propiedades de la f.g.m. de las Xi y de ahı obtener los valores de µ, σ2 y τ para S.
=⇒MX (t) = (1− θt)−α = (1− 2t)−2
MX(t) = −2(1− 2t)−3(−2) = 4(1− 2t)−3|t=0 = 4, E (X) = 4
MX ´ (t) = −12(1− 2t)−4(−2) = 24(1− 2t)−4|t=0 = 24, E (X2) = 24
MX ´ (t) = −96(1− 2t)−5(−2) = 192(1− 2t)−5|t=0 = 192, E (X3) = 192
De aquı podemos obtener
µ = λE (X) = 10 ∗ 4 = 40
σ2 = λE (X2) = 10 ∗ 24 = 240
τ =λE (X3)√(λE (X2))3
=10 ∗ 192√(10(24))3
=8√240
Por lo que α =4
τ 2=
482
240
= 15,
θ =στ
2=
√240 8√
240
2= 4 y k = µ− 2σ
τ= −20
=⇒ S ∼ Gamma(s+ 20, 15, 4)
Por lo tanto FS (8) ≈ Gamma (28, 15, 4)) = Γ (15, 7)
Para el ejemplo S ∼ Gamma(28, α = 15, θ = 4), evaluando directamente en R, y recordando
que a parametrizacion que usa este paquete es1
θ, obtenemos
FS (28, 15, 1/4) = 0.005717202
91
La siguiente grafica muestra las funciones de densidad y distribucion asociadas
0 50 100 150
0.00
00.
005
0.01
00.
015
0.02
00.
025
Aproximación Gamma transladada
s
f S(s
)
0 50 100 150
0.0
0.2
0.4
0.6
0.8
1.0
Aproximación Gamma transladada
s
FS(s
)
Aproximacion Poisson Compuesta
La Aproximacion Poisson Compuesta es otro metodo util, bajo el que se pretende aproximar
el modelo de riesgo individual al modelo de riesgo colectivo, tal situacion se realiza porque
existen mas metodos para el calculo de la distribucion de S en el modelo colectivo; incluso
es indispensable saber que los siguientes metodos a desarrollar se basan en la construccion
del modelo colectivo.
En el modelo individual S =n∑i=1
Xi donde Xi i = 1, 2, ..., n son v.a.´s independientes,
Xi = RiBi y Bi es el monto de la reclamacion de la poliza i. Ademas, la v.a. Bernoulli (Ri)
del modelo individual asigna el valor de 1 cuando se efectua un reclamacion con probabilidad
qi y 0 con probabilidad (1− qi) de manera que su f.g.p. es:
PRi = (1 + qi (z − 1))
92
Bajo este metodo la Aproximacion Poisson Compuesta asume que la v.a. Ri se distribuira
Poisson (λi) , para ello se proponen 3 metodos que asignan diferentes valores al parametro
λi de esta distribucion Poisson
1. El primero iguala las esperanzas de la v.a. Bernoulli(qi) con la de una v.a. Poisson(λi) ,
entonces:
λi = qi; i = 1, 2, ..., n
Esta opcion es buena para valores de qi cercanos a cero.
2. El segundo iguala la probabilidad en cero de ambas variables aleatorias, es decir
1− qi = e−λi
=⇒ln (1− qi) = −λi
∴ λi = − ln (1− qi) ; i = 1, 2, ...n y − ln (1− qi) > qi
3. El ultimo metodo fue propuesto por Kornya y usa el siguiente valor para cada λi
λi =qi
1− qi; i = 1, 2, ..., n
A su vez, el numero esperado de perdidas de este metodo es mas grande que la esperanza
del segundo.
Para el caso del Modelo individual la f.g.m. de S asociada es
MS (t) =n∏i=1
PRi [MBi (t)]
considerando que Ri ahora se distribuye Poisson, entonces
93
MS (t) =n∏i=1
exp (λi [MBi (t)− 1])
por el resultado sobre la suma de distribuciones poisson compuesta, tenemos
λ =n∑i=1
λi, MX (t) =n∑i=1
λiλMBi (t) y fX (x) =
n∑i=1
λiλfBi (x)
Ejemplo
Considerando los datos de la companıa aseguradora en donde se cubren 3 diferentes grupos
de asegurados, utilizar la Aproximacion Poisson Compuesta para el modelo individual y pos-
teriormente con la aproximacion normal encontrar FS (1900) para los 3 valores que puede
tomar λ.
La tabla correspondiente a este seguro es
i # de polizas Probabilidad de reclamacion Monto de Reclamacion1 1000 0.05 102 2000 0.10 53 500 0.02 20
• Primeramente, con λi = qi
λ =3∑i=1
niλi = (1000 ∗ 0.05) + (2000 ∗ 0.10) + (500 ∗ 0.02) = 260
=⇒
fX (10) =1000 ∗ 0.05 ∗ 1
260+
2000 ∗ 0.10 ∗ 0
260+
500 ∗ 0.02 ∗ 0
260= 0.192307692
fX (5) =1000 ∗ 0.05 ∗ 0
260+
2000 ∗ 0.10 ∗ 1
260+
500 ∗ 0.02 ∗ 0
260= 0.769230769
94
fX (20) =1000 ∗ 0.05 ∗ 0
260+
2000 ∗ 0.10 ∗ 0
260+
500 ∗ 0.02 ∗ 1
260= 0.038461538
Por ser Poisson compuesto
E (S) = λE (X) = 260 ∗ [(10 ∗ 0.192307692) + (5 ∗ 0.769230769) + (20 ∗ 0.038461538)]
= 260 ∗ 6.538461525 = 1699.999
V ar (S) = λE (X2) = 260 ∗ 53.84615363 = 13999.99994
=⇒
FS (1900) = P[S − 1699.999√
13999.99994≤ 1900− 1699.999√
13999.99994
]= P [z ≤ 1.690317021]
= φ (1.690317021) = 0.9545155
• Con λi = − ln (1− qi)
λ =3∑i=1
λi = (1000 ∗ (− ln(0.95))) + (2000 ∗ (− ln (0.9))) + (500 ∗ (− ln (0.98)))
= 272.1156794=⇒
fX (10) =1000 ∗ (− ln(0.95)) ∗ 1
272.1156794= 0.188498121
fX (5) =2000 ∗ (− ln (0.9)) ∗ 1
272.1156794= 0.774380336
fX (20) =500 ∗ (− ln (0.98)) ∗ 1
272.1156794= 0.037121542
E (S) = 272.1156794 ∗ 6.49931373 = 1768.565171
V ar (S) = 272.1156794 ∗ 53.0579373 = 14437.89666
FS (1900) = P[z ≤ 1900− 1768.565171√
14437.89666
]= P [z ≤ 1.093851836]
= φ (1.093851836) = 0.86299
95
• Para λi =qi
1− qi
λ =3∑i=1
λi =
(1000 ∗
(0.05
0.95
))+
(2000 ∗
(0.10
0.9
))+
(500 ∗
(0.02
0.98
))
= 285.0578828=⇒
fX (10) =1000 ∗ (0.05/0.95) ∗ 1
285.0578828= 0.184634708
fX (5) =2000 ∗ (0.1/0.9) ∗ 1
285.0578828= 0.779568767
fX (20) =500 ∗ (0.02/0.98) ∗ 1
285.0578828= 0.035796525
E (S) = 285.0578828 ∗ 6.460121415 = 1841.508533
V ar (S) = 285.0578828 ∗ 52.27129998 = 14900.3461
FS (1900) = P[z ≤ 1900− 1841.508533√
14900.3461
]= P [z ≤ 0.479175203]
= φ (0.479175203) = 0.684093
El siguiente grafico es el comparativo de las funciones de densidad de S que surgen de la
Aproximacion Poisson con cada uno de los metodos realizados
96
0 500 1000 1500 2000 2500 3000
0.00
00.
001
0.00
20.
003
0.00
4Comparación aproximación Poisson
s
f S(s
)
Método 1Método 2Método 3
Mediante las aproximaciones podemos conocer la distribucion para S, sin embargo, es factible
que los resultados no se acerquen tanto a la realidad puesto que no se poseen muchas bases
para justificar que las distintas aproximaciones (normal, lognormal o gamma) se ajusten a
la distribucion de los datos; y simplemente se pueden tomar estas decisiones por el aparente
comportamiento del numero de reclamaciones y de las colas que tengan. Por ejemplo, si
tuvieramos el caso en que existe un lımite de poliza para las perdidas, serıa muy probable que
la severidad de nuestros datos tuviera una masa de probabilidad en este punto, debido a que
todas las reclamaciones que hayan excedido el monto u solo recibiran a lo mas esta cantidad
y eso determinarıa dicha probabilidad; por lo cual, esta situacion generarıa irregularidades
en la forma de la distribucion, y por tal situacion, utilizar un metodo de aproximacion no
serıa la mejor manera de conocer la distribucion del riesgo. Por tal motivo, a continuacion
se desarrollaran otras propuestas de metodos que sirven para determinar la distribucion del
riesgo S.
97
Calculo de la distribucion de S a traves de convoluciones
Vimos en el desarrollo de la distribucion del monto agregado de reclamaciones, S, que esta
se especifica por medio de convoluciones de la variable asociada a la severidad, mediante un
calculo recursivo. Concretamente
F ∗kX (x) =
∫ ∞−∞
F(k−1)X (x− y)dFX(y) para k = 1, 2, ...
y su densidad
f ∗kX (x) =
∫ ∞−∞
f(k−1)X (x− y)fX(y)dy para k = 1, 2, ...
Unicamente para mostrar lo complejo que puede ser este calculo, presentaremos un ejemplo
muy sencillo que ilustra como se realiza.
Ejemplo
Sea P(N = j−1) = j/10 para j = 1, 2, 3, 4, la funcion de densidad discreta, y sea X una dis-
tribucion de perdida que toma solo dos valores, con probabilidades f(1) = 0.4 y f(2) = 0.6.
Encontrar las correspondientes funciones de densidad y distribucion de S, calculando la con-
volucion. En este caso, las distribuciones de N y X son discretas, ası que debemos utilizar
las formulas recursivas
F ∗kX (x) =x∑y=0
F∗(k−1)X (x− y)fX(y) y
f ∗kX (x) =x∑y=0
f∗(k−1)X (x− y)fX(y) para x=0,1,2,..., k=1,2,...
Observemos primero que:
f ∗0X (0) = 1 y f ∗0X (x) = 0 ∀x 6= 0 y para k = 1, f ∗1X (x) = fX(x) y para k = 2,
f ∗2X = Pr(X1 +X2 = x), etc.
Realizando lo calculos obtenemos la siguiente tabla
98
x f ∗0(x) f ∗1(x) f ∗2(x) f ∗3(x) fS(x) FS(x)0 1 0 0 0 0.1000 0.10001 0 0.4 0 0 0.0800 0.18002 0 0.6 0.16 0 0.1680 0.34803 0 0 0.48 0.064 0.1696 0.51764 0 0 0.36 0.288 0.2232 0.74085 0 0 0 0.432 0.1728 0.91366 0 0 0 0.216 0.0864 1
P (N = n) 0.1 0.2 0.3 0.4
Ahora veamos como se generan estos valores. Tenemos cuatro valores para N ; n = 0, 1, 2, 3,
con probabilidades asociadas p0 = 0.1, p1 = 0.2, p2 = 0.3, p3 = 0.4. Por lo tanto, la funcion
de densidad de S se puede escribir como
fS(x) =3∑
n=0
pnf∗nX (x)
Para simplificar la notacion, omitiremos el subındice X. Ya vimos que f ∗0(0) = 1, y es
el unico valor distinto de cero para la segunda columna de nuestra tabla. Ademas de esta
funcion, ya tenemos definada f ∗1, que, como se puede calcular a traves del proceso recursivo,
la construiremos solo con fines ilustrativos. Entonces, como calculamos f ∗1?
Primero
f ∗1(x) =x∑y=0
f ∗0(x− y)f(y), x = 0, 1, 2, ...
Antes de iniciar el calculo de las convoluciones involucradas, reflexionemos un poco.
• Sabemos que f ∗0(x) 6= 0⇐⇒ x = 0. Por lo tanto, los unicos casos relevantes para evaluar
esta funcion son cuando x = y.
• f(x) o en la formula f(y) solo esta definida para valores de y = 1 y y = 2, por lo que
f(y) = 0 ∀ y 6= 1, 2. Ahora sı, iniciemos los calculos.
99
Entonces tenemos lo siguiente
x = 0, y = 0⇒ f ∗1(0) = f ∗0(0)f(0) = 0
x = 1, y = 0⇒ f ∗1(1) = f ∗0(1)f(0) = 0
x = 1, y = 1⇒ f ∗1(1) = f ∗0(0)f(1) = 1 ∗ 0.4 = 0.4
x = 2, y = 0⇒ f ∗1(2) = f ∗0(2)f(2) = 0
x = 2, y = 1⇒ f ∗1(2) = f ∗0(1)f(1) = 0
x = 2, y = 2 ⇒ f ∗1(2) = f ∗0(0)f(2) = 1 ∗ 0.6 = 0.6. Observese que ya no hay mas valores
distintos de cero (f(y) se define como cero para y > 2), para valores que puede tomar x, y los
valores distintos de cero corresponden a la funcion original de densidad. Analicemos ahora
como construir f ∗2 = Pr(X1 +X2 = x). Primero tenemos que
f ∗2(x) =x∑y=0
f ∗1(x− y)f(y), x = 0, 1, 2, ...
Dado que f(y) solo es distinta de cero para y = 1 y y = 2, entonces, esta evaluacion
unicamente tiene sentido para estos valores en y, y cualesquiera otros en x. Por completez,
calcularemos algunos no incluidos en esta restriccion, para verificar que son cero.
Entonces
x = 0, y = 0⇒ f ∗2(0) = f ∗1(0)f(0) = 0
x = 1, y = 0⇒ f ∗2(1) = f ∗1(1)f(0) = 0
x = 1, y = 1⇒ f ∗2(1) = f ∗1(0)f(1) = 0
x = 2, y = 0⇒ f ∗2(2) = f ∗1(2)f(0) = 0
x = 2, y = 1⇒ f ∗2(2) = f ∗1(1)f(1) = 0.4 ∗ 0.4 = 0.16
x = 2, y = 2⇒ f ∗2(2) = f ∗1(0)f(2) = 0
100
x = 3, y = 0⇒ f ∗2(3) = f ∗1(3)f(0) = 0
x = 3, y = 1⇒ f ∗2(3) = f ∗1(2)f(1) = 0.6 ∗ 0.4 = 0.24
x = 3, y = 2⇒ f ∗2(3) = f ∗1(1)f(2) = 0.4 ∗ 0.6 = 0.24
Aquı continuarıan los calculos con y = 3, pero, en este caso y los restantes, f(y) = 0. Por lo
tanto, no existen mas casos para los que f ∗2 sea distinta de cero. Por lo que tenemos que,
f ∗2(3) = 0.24 + 0.24 = 0.48.
Ası se puede continuar con el calculo de los demas elementos de la tabla.
Para ilustrar como construir fS(x) y FS(x). De la definicion de la primera
fS(x) =3∑
n=0
pnf∗n(x). Solo nos resta multiplicar los valores que hemos encontrado por las
correspondientes probabilidades de N . Por ejemplo, para x = 2, tenemos
fS(2) = p0∗f ∗0(2)+p1∗f ∗1(2)+p2∗f ∗2(2)+p3∗f ∗3(2) = 0.1∗0+0.2∗0.6+0.3∗0.16+0.4∗0 =
0.168.
La funcion de distribucion es simplemente el acumulado de la de densidad.
Este sencillo ejemplo muestra lo complicado que es encontrar la distribucion de S, sobre todo
por lo laborioso del calculo de la convolucion.
El codigo en R para este ejemplo, es
#convolucion
fr < −c(0.1, 0.2, 0.3, 0.4)
fs < −c(0, 0.4, 0.6, 0)#Se amplıa el vector para tener la misma dimension que el de severidad
Fs < −aggregateDist(”convolution”,model.freq = fr,model.sev = fs)
quantile(Fs)
CDFs < −Fs(c(0, 1, 2, 3, 4, 5, 6))
101
dfs < −diff(c(0, CDFs))
Las graficas de las funciones de distribucion y densidad de S, son
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
Distribución de S: Método convolución
s
FS(x
)
Densidad de S: Método convolución
0.00
0.05
0.10
0.15
0.20
Ejemplo con datos reales
Hagamos un modelo agregado utilizando convoluciones, con las dos tablas de datos dadas en
el libro de Loss Models from data to decision (Klugman), sobre un seguro dental para grupo.
Las tablas son las siguientes
102
Monto: X
x fX(x)1 0.1502 0.2003 0.2504 0.1255 0.0756 0.0507 0.0508 0.0509 0.02510 0.25
dado en unidades de 25 dolares.
Frecuencia: N
n p(N =n)0 0.051 0.102 0.153 0.204 0.255 0.156 0.067 0.038 0.01
que representa la distribucion del numero de personas por cada “certificado de seguro” (i.e.,
por cada empleado) que recibieron cuidados dentales en el ano que cubre el seguro. La
solucion la haremos totalmente en R
103
Metodos Recursivos
Formula Recursiva de Panjer
La distribucion del riesgo S la mayorıa de las ocasiones no es sencilla de obtener y a pesar
de que se puede obtener con el calculo directo de la convolucion
FS(s) =∞∑n=0
pnF∗nX (x)
no suele ser una cuestion trivial. Primero porque las convoluciones de F ∗nX (x) no siempre
tienen forma de alguna distribucion conocida; pero mas importante aun, este calculo se
vuelve complejo a medida que aumenta el numero de elementos en la convolucion, inclusive
con las computadoras muy potentes, porque el numero de operaciones que se deben llevar a
cabo, es muy elevado.
Es por esta razon que a traves de la Formula Recursiva de Panjer los calculos pueden ser
minimizados. Para ello, debemos retomar los conceptos que manejamos en los modelos
compuestos de frecuencia, donde considerabamos el modelo de riesgo colectivo tomando la
distribucion de frecuencia y la de severidad como distribuciones discretas. Entonces, la
distribucion compuesta de S
S = X1 +X2 + · · ·+XN
se obtenıa mediante gk =∞∑n=0
pnf∗nk ;
donde gn = P [S = n] , pn = P [N = n] ; fn = P [X = n], y f ∗nk , k = 0, 1, ... es la n-esima
convolucion de fk.
Para determinar gk del riesgo S, lo primero que requerimos es pedir que la distribucion
asociada a la frecuencia, sea miembro de las clase (a,b,0) o (a,b,1). Esto porque las formulas
desarrolladas por Panjer quedan expresadas con base en estas distribuciones.
• Si la distribucion primaria es miembro de la clase (a,b,0), se tiene la formula recursiva:
104
gk =1
1− af0
k∑j=1
(a+
bj
k
)fjgk−j; k = 1, 2, 3, ...
Para el valor de g0,
g0 =
p0 = P [N = 0] si f0 = P [X = 0] = 0
PN (f0) o MN (log f0) si f0 = P [X = 0] > 0
Teorema
Para cualquier distribucion compuesta, g0 = PN (f0), donde PN (z) es la f.g.p. de la dis-
tribucion primaria y f0 es la probabilidad de la distribucion secundaria cuando toma el valor
de cero.
Ademas necesitamos los siguientes resultados previos a la demostracion de la Formula re-
cursiva de Panjer:
E[a+
bX1
k| S = k
]= a+ E
[bX1
k| S = k
]= a+
b
kE [X1 | S = k]
= a+b
nk
n∑j=1
E
[Xj |
n∑i=1
Xi = k
]= a+
b
nkE
[n∑j=1
Xj |n∑i=1
Xi = k
]
= a+bk
nk= a+
b
n
y se puede escribir como
E[a+
bX1
k| S = k
]=
k∑j=0
(a+
bj
k
)P [X1 = j| S = k]
=k∑j=0
(a+
bj
k
)P [X1 = j]P [S −X1 = k − j]
P [S = k]
Dem. (Formula Recursiva de Panjer):
105
gk =∞∑n=1
pnf∗nk =
∞∑n=1
pnP [X1 +X2 + · · ·+Xn = k] =∞∑n=1
pnP [S = k]
ademas los miembros de la clase (a,b,0) satifacen que pn =
(a+
b
n
)pn−1; n = 1, 2, 3, ...
=⇒ gk =∞∑n=1
(a+
b
n
)pn−1P [S = k] luego por los resultados previos
=∞∑n=1
pn−1
k∑j=0
(a+
bj
k
)P [X1 = j]P [S −X1 = k − j]
=k∑j=0
(a+
bj
k
)P [X1 = j]
∞∑n=1
pn−1P [S −X1 = k − j]
con la notacion de gn = P [S = n] , pn = P [N = n] y fn = P [X = n] y notando que la ultima
suma vuelve a quedar en terminos de g, finalmente
gk =k∑j=0
(a+
bj
k
)fjgk−j = af0gk +
k∑j=1
(a+
bj
k
)fjgk−j
gk (1− af0) =k∑j=1
(a+
bj
k
)fjgk−j
por lo tanto
gk =1
(1− af0)
k∑j=1
(a+
bj
k
)fjgk−j
Analogamente
• Si la distribucion primaria es miembro de la clase (a,b,1), la formula recursiva es:
gk =
[p1 − (a+ b)p0] fk +k∑j=1
(a+
bj
k
)fjgk−j
1− af0; k = 1, 2, 3, ...
106
Estos resultados se pueden considerar de manera particular y tomando en cuenta la notacion
asociada con fS (x) =∞∑n=0
pnf∗nX (x), es decir, supongamos que la distribucion de severidad
fX (x) esta definida para los valores de 0, 1, 2, ...,m, porque en efecto los montos de recla-
macion que recibe una companıa aseguradora generalmente tienen un tope de pago, y que
la frecuencia de las reclamaciones es pk, entonces:
• Para pk de la clase (a,b,1)
fS (x) =
[p1 − (a+ b)p0] fX (x) +x∧m∑y=1
(a+
by
x
)fX (y) fS (x− y)
1− afX (0)
donde x ∧m representa el min(x,m).
• Para pk de la clase (a,b,0)
fS (x) =
x∧m∑y=1
(a+
by
x
)fX (y) fS (x− y)
1− afX (0)
Cuando la distribucion es Poisson, sabemos que a = 0, b = λ. Entonces la formula se reduce
a:
fS (x) =λ
x
x∧m∑y=1
yfX (y) fS (x− y) ; x = 1, 2, 3, ..
Ademas, de igual forma que en la formulas recursivas anteriores, el valor inicial para deter-
minar la densidad de S es fS (0) = PN [fX (0)]
Ejemplo
Utilizando el metodo recursivo encontrar la probabilidad de que haya mas de tres recla-
maciones agregadas, cosiderando que el modelo de riesgo colectivo se distribuye Poisson-
Binomial Negativa. Donde la distribucion primaria es Poisson con λ = 2, y la distribucion
107
secundaria es Binomial Negativa con β = 1.5 y r = 5
Deseamos 1−FS (3) . Entonces para la distribucion Binomial Negativa, recordando como se
escriben los modelos de la clase (a,b,0), tenemos
a =β
1 + β= 0.6 y b = (r − 1)
β
1 + β= 2.4, con
fX (0) = (1 + β)−r = (1 + 1.5)−5 = 0.01024
Utilizando la forma recursiva de esta distribucion, calculamos el resto de valores necesarios
para encontrar la probabilidad que nos piden, como
fX (1) = (0.6 + 2.4) ∗ 0.01024 = 0.03072
fX (2) =
(0.6 +
2.4
2
)∗ 0.03072 = 0.055296
fX (3) =
(0.6 +
2.4
3
)∗ 0.055296 = 0.0774144
El primer valor del modelo agregado o de la funcion de densidad de S es
fS (0) = PN (fX (0)) = e2(fX(0)−1) = e2(0.01024−1) = 0.138135526
Para el resto de valores, recordar que nuestra distribucion Poisson escrita como un elemento
de la clase (a,b,0), tiene a = 0 y b = λ = 2. Entonces
fS (x) =2
x
x∑y=1
yfX (y) fS (x− y)
fS (1) =
(2
1∗ 0.03072 ∗ 0.138135526
)= 0.008487047
fS (2) =
(2
2∗ 0.03072 ∗ 0.008487047
)+
(2
2∗ 2 ∗ 0.055296 ∗ 0.138135526
)
108
= 0.015537406
fS (3) =
(2
3∗ 0.03072 ∗ 0.015537406
)+
(2
3∗ 2 ∗ 0.055296 ∗ 0.008487047
)
+
(2
3∗ 3 ∗ 0.0774144 ∗ 0.138135526
)= 0.022331297
=⇒ 1− FS (3) = 1− (0.138135526 + 0.008487047 + 0.015537406 + 0.022331297)
= 0.815508724
La probabilidad de que existan mas de tres reclamaciones bajo el modelo agregado es
0.815508724. A continuacion se muestran los valores de las funciones de densidad y la
distribucion de S que se generaron por medio de R y para los primeros 6 valores.
x fS (x) FS (x)0 1.381355e− 01 0.13813551 8.487047e− 03 0.14662262 1.553741e− 02 0.16216003 2.233130e− 02 0.18449134 2.785252e− 02 0.21234385 3.175299e− 02 0.24409686 3.414236e− 02 0.2782392
109
0 20 40 60 80 100 120
0.0
0.2
0.4
0.6
0.8
1.0
Distribución de Reclamaciones Agregadas
Aproximación Método Recursivo (Panjer)s
FS(s
)
Aproximación Método Recursivo (Panjer)Densidad de Reclamaciones Agregadas
Aproximación Método Recursivo (Panjer)s
f S(s
)
0.00
0.02
0.04
0.06
0.08
0.10
0.12
110
Datos reales
Nuevamente seguro dental del libro de Klungman
X : Monto N : Frecuenciax fX(x) n p(N =n)
1 0.150 0 0.052 0.200 1 0.103 0.250 2 0.154 0.125 3 0.205 0.075 4 0.256 0.050 5 0.157 0.050 6 0.068 0.050 7 0.039 0.025 8 0.0110 0.25
Con solucion completa en R.
De esta forma es como se implementa la Formula Recursiva de Panjer simpre que las
distribuciones de frecuencia en las reclamaciones agregadas no sean a su vez distribuciones
compuestas, puesto que cuando esta situacion se presenta, para poder llevar a cabo el calculo
de fS (x) se debe aplicar dicha formula por partida doble; esto es, consideremos la f.g.p. para
N :
PN(z) = P1 [P2 (z)]
donde P1 es la f.g.p. de la distribucion primaria de frecuencias y P2 la secundaria.
De tal manera que para las reclamaciones agregadas
PS (z) = PN [PX (z)] = P1 [P2 (PX (z))] que podemos reescribir como
PS (z) = P1 [PS1 (z)] ; claramente PS1 = P2 [PX (z)] .
Esta distribucion de S1 debera ser la primera que se calcule mediante la formula de Panjer,
dando como resultado fS1 (x) ; x = 0, 1, 2, ... que funcionara como la nueva distribucion de
“severidad” para encontrar fS(x); es decir, nuevamente se aplicara la formula recursiva,
comenzando por fS (0) = PS (0) = P1 [fS1 (0)] y posteriormente utilizando los valores de
111
fS1 (x) como las probabilidades de la distribucion de severidad mientras que pn en esta
segunda vuelta sera determinada por la distribucion primaria de frecuencias.
Se ha utilizado el supuesto de que la severidad posee una distribucion discreta para poder
aplicar el metodo recursivo; sin embargo, el analogo para este metodo, considerando que la
severidad es continua, queda expresado por medio de una ecuacion integral.
Teorema
Para distribuciones de frecuencia de la clase (a,b,1) y cualquier distribucion de severidad
continua con soporte en los reales positivos, se tiene la siguiente ecuacion integral que deter-
mina la densidad del riesgo S :
fS (x) = p1fX (x) +
∫ x
0
(a+
by
x
)fX (y) fS (x− y) dy
Las ecuaciones integrales de esta forma corresponden a ecuaciones integrales de Volterra de
segundo orden, y la demostracion de este teorema queda fuera de los alcances de este curso.
Existen soluciones numericas para estas ecuaciones que pueden ser consultadas en el libro
de Baker [13]. Sin embargo, en este estudio se utilizaran aproximaciones discretas para dis-
tribuciones continuas que modelen la severidad en las reclamaciones por medio del metodo
de redondeo, con el proposito de implementar el Metodo Recursivo de Panjer.
112
Metodo de Redondeo
Mencionamos y ademas vimos en los ejemplos, que el metodo de Panjer no funciona cuando
la densidad de la severidad es continua, por lo que debemos recurrir a discretizar esta funcion
para poder aplicar Panjer. El metodo de redondeo es una buena herramienta pa este fin. Este
metodo se utiliza para construir distribuciones discretas a partir de distribuciones de severi-
dad que sean continuas. Para ello se deben asignar probabilidades discretas en multiplos de
alguna unidad de medida establecida h, que recibe el nombre de “span”; dicha distribucion
se conoce como aritmetica puesto que se define para enteros positivos.
El metodo de redondeo concentra la probabilidad de la mitad del span h, dividiendo la
probabilidad entre (j + 1)h y jh, de manera que asigna dicha mitad al punto j + 1 y la otra
al punto j. Es decir, si fj es la probabilidad comprendida en jh; j = 0, 1, 2, ...
f0 = P[X <
h
2
]= FX
(h
2
)
fj = P[jh− h
2≤ X < jh+
h
2
]= FX
(jh+
h
2
)− FX
(jh− h
2
)
Cuando la distribucion a discretizar no esta acotada, lo mas apropiado es limitar los valores
que toma en algun punto m, que asegure una acumulacion de probabilidades lo mas cercana
a uno que se pueda, entonces fm = 1−FX [(m− 0.5)h] . De tal manera que las probabilidades
nunca sean negativas y la suma de ellas sea 1, para asegurar que realmente es una funcion
de densidad de probabilidades.
Ejemplo
Supongase que la severidad de las perdidas agregadas sigue una distribucion Pareto con
α = 4 y θ = 50. Obtener su distribucion discreta mediante el metodo de redondeo con un
span de 0.9.
X ∼ Pareto(4, 50) y h = 0.9. Entonces
f0 = FX
(0.9
2
)= 1−
(50
0.45 + 50
)4
= 0.035204354
fj = FX (0.9j + 0.45)− FX (0.9j − 0.45)
113
=
(50
(0.9j − 0.45) + 50
)4
−(
50
(0.9j + 0.45) + 50
)4
En terminos generales la funcion de densidad discreta queda expresada con fj. Evaluemos
la funcion para j = 0, 1, ..., 10 con el fin de mostrar sus valores en la siguiente tabla.
j fj0 0.0352043541 0.0658814782 0.0603528253 0.0553716894 0.0508758445 0.0468110146 0.0431297537 0.0397904898 0.0367567229 0.03399633710 0.031481019
Finalmente, la siguiente grafica muestra el ajuste de la distribucion continua a la distribucion
discreta
114
0 10 20 30 40
0.0
0.2
0.4
0.6
0.8
Comparación: Pareto (4,50) continua vs. discretizada
x
FX(x
)
RealDiscretización
0.00
0.01
0.02
0.03
0.04
0.05
0.06
RealDiscretización
Una vez que se tiene esta discretizacion de la funcion de severidad, se puede proceder a
aplicar el metodo de Panjer, para una distribucion discreta de las familias (a,b,0) o (a,b,1).
115
Metodos de Inversion
Hasta el momento hemos desarrollado diversos metodos para poder encontrar la distribucion
de las perdidas agregadas correspondientes a los modelos que se pueden presentar en los datos
de una aseguradora, entre ellos se utilizaron convoluciones, aproximaciones asintoticas y la
fomula recursiva de Panjer. Ademas, en la seccion anterior, tambien conocimos el metodo de
redondeo que se implementa para discretizar funciones continuas, de tal forma que posterior
a este proceso se pueda aplicar el metodo recursivo y finalmente conocer la distribucion del
riesgo acumulado.
Otros metodos para encontrar la distribucion de S se conocen como los de inversion. Estos
metodos numericos se basan en el hecho de la correspondencia unica entre las distribuciones
de las variables aleatorias con su funcion caracterıstica (f.c.), su funcion generadora de mo-
mentos (f.g.m.) y su funcion generadora de probabilidades (f.g.p.).
La razon por la cual se involucra a la funcion caracterıstica en los metodos de inversion, es
porque, ademas de ser unica, siempre existe. Por lo tanto, para una funcion caracterıstica
dada, siempre tendremos su unica y correspondiente funcion de distribucion que finalmente
es la que nos interesa hallar.
Dicha correspondencia tambien se respeta al tratarse de distribuciones compuestas, debido
a que su funcion caracterıstica queda expresada como una composicion de funciones que
cumplen lo anterior.
Por lo tanto, la funcion caracterıstica asociada a la distribucion de perdidas agregadas es:
ϕS (z) = E[eiSz]
= PN [ϕX (z)]
donde PN es la f.g.p. de la frecuencia y ϕX (z) la f.c. de la severidad.
Transformada Rapida de Fourier (FFT)
Este algoritmo lo utilizaremos para obtener la funcion de densidad de variables aleatorias
discretas con base en la transformacion de sus funciones caracterısticas. Entonces, la sigu-
iente definicion muestra la Transformada de Fourier adaptada para una f.d.p.
116
Definicion Para cualquier funcion de densidad de probabilidades continua f (x), la Trans-
formada de Fourier (funcion caracterıstica) asociada es:
f (z) =
∫ ∞−∞
f (x) eizxdx
La f.d.p. que se obtiene a partir de la Transformada de Fourier es:
f (x) =1
2π
∫ ∞−∞
f (z) e−izxdz
Para el caso, f (x) es una funcion definida en los reales y f (z) en los numeros complejos.
Mientras que la version discreta de esta transformada es la siguiente
Definicion Sea fx una funcion definida en todos los valores enteros de x. Para el vector
(f0, f1, ..., fn−1) la Transformada de Fourier discreta que tiene el vector(f0, f1, ..., fn−1
)se
define por medio de
fk =n−1∑j=0
fj exp
(2πi
njk
); k = 0, 1, ...
Este mapeo es biyectivo puesto que se transforman n puntos en n puntos.
La Transformada de Fourier Inversa es:
fj =1
n
n−1∑k=0
fk exp
(−2πi
nkj
); j = 0, 1, ...
Cabe senalar que la Transformada Rapida de Fourier (FFT) es un algoritmo empleado para
conocer la Transformada de Fourier, sin embargo no se estudiara el desarrollo del algoritmo,
aunque es importante mencionar que reduce el numero de calculos realizados a un orden de
(n log n) mientras que la evaluacion directa de la transformada lo harıa en n2 operaciones;
que se vuelve mas importante a medida que el valor de n es mas grande. Ademas, el unico
requerimiento que debemos considerar para aplicar este metodo es que el valor de n sea
potencia de 2.
117
Entonces, el proceso a seguir para hacer uso de la FFT y con ello conocer la distribucion de
S es:
• Discretizar la funcion de severidad de las perdidas agregadas por el metodo de redondeo
y obtener el siguiente vector de probabilidades
fX (0) , fX (1) , ..., fX (n− 1)
con n = 2r, r entero y n se define respecto a fS (s) que se desea obtener.
• Aplicar el algoritmo FFT al vector anterior para obtener la funcion caracterıstica de
los montos de reclamacion, en este caso ϕX (s) que igual es un vector de n entradas.
• Una vez conocida la funcion caracterıstica de la severidad y con la funcion generadora
de probabilidades del numero de reclamaciones, se hace la composicion de estas dos
para determinar la Transformadad de Fourier discreta (funcion caracterıstica) de las
perdidas agregadas.
• Finalmente, se implementa el algoritmo de la Transformada rapida de Fourier en orden
Inverso (IFFT) que proporcionara la f.d.p. del riesgo S.
118
Ejemplo
Encontrar a traves del metodo de la Transformada rapida de Fourier la funcion de densidad
de S, considerando n = 27, que la distribucion de severidad es Exponencial (1/4), el numero
de reclamaciones se distribuye Binomial Negativa (β = 0.25, r = 10) y que se tienen las
siguientes modificaciones de la cobertura del seguro:
Deducible: d = 5
Lımite de poliza: α (u− d) = 40
Coaseguro: α = 80%
Utilizar un “span” de 0.4 para el metodo de redondeo y considerar que son perdidas agregadas
de pago.
La resolucion de este ejemplo se hara mediante el uso de codigos en R. Esta situacion se debe
a que los calculos de la FFT solo son posibles con el uso de un programa computacional.
La distribucion de Y Pasociada y que se debe discretizar es
FY P =
0 y = 0
FX(y0.8
+ 5)− FX (5)
1− FX (5)0 < y < 40
1 y ≥ 40
En este caso que X ∼ Exp(1/θ) para FY P cuando 0 < y < α(u− d)
FY p (y) =
(1− e−
1θ (
yα+d))−(
1− e− dθ)
e−dθ
=e−
dθ − e−
1θ (
yα+d)
e−dθ
=e−
dθ
(1− e− y
αθ
)e−
dθ
= 1− e− yαθ
∴ Y P ∼ Exp(1/αθ), en el ejemplo Y P ∼ Exp(0.3125)
119
Codigo en R
a < −0.8
d < −5
l < −40
u < −(l/a) + d
h < −0.4
n < −27
fy < −discretize(pexp(x, rate = 0.3125),method = ”rounding”, from = 0, to = n ∗ h, step = h)
#Este vector resultante es la version discreta y aproximada de la distribucion de severidad
con las modificaciones de cobertura del seguro.
fcy < −fft(fy, inverse = FALSE) #Funcion caracterıstica de los montos de reclamacion.
Como el numero de reclamaciones tambien se modifica por las coberturas, siN ∼ BinNeg(β, r),
entonces
NP ∼ BinNeg(β∗ = βv, r) y v = 1− FX (5)
v < −(1− pexp(d, 1/4))
r < −10 ; b < −0.25
beta < −(v ∗ b)
La f.g.p. de NP es PNP (z) = [1− β∗ (z − 1)]−r
Entonces, la funcion caracterıstica de S, es
ϕS (s) = [1− β∗ (ϕY P (s)− 1)]−r
fcS < −(1− beta ∗ (fcy − 1))−r
120
Por ultimo, se realiza la IFFT (Transformada rapida de Fourier Inversa) agregando la division
entre n que no calcula la funcion de R pero que es parte de la formula para obtener la funcion
de densidad de S de acuerdo a su defincion.
fS < −Re(fft(fcS, inverse = TRUE))/n
Esta es la tabla resumen de valores para ϕY P (s) , ϕS (s) y fS (s) con n = 128.
s ϕY P (s) ϕS (s) fS (s)0 0.999999880 0.9999999 5.214224e− 011 0.866304586 0.8802309 3.862681e− 022 0.618238579 0.7162362 3.566183e− 023 0.418398588 0.6236285 3.290695e− 024 0.287939540 0.5768385 3.034938e− 025 0.205446738 0.5516760 2.797684e− 026 0.152087109 0.5369782 2.577756e− 027 0.116303997 0.5277549 2.374033e− 028 0.091418485 0.5216224 2.185448e− 02
0 20 40 60 80 100 120
0.0
0.2
0.4
0.6
0.8
1.0
Distribución de pérdidas agregadas: Método de Inversión
s
FS(s
)
121
Metodo de simulacion
El ultimo metodo que consideraremos para encontrar la distribucion de S en el modelo colec-
tivo, es el metodo de simulacion que contiene el paquete actuar. Para implementarlo debemos
conocer de manera analıtica tanto el modelo de frecuencias como el modelo de severidad.
Esto quiere decir que conocemos tanto los modelos subyacentes a la frecuencia y la severidad
de nuestros datos, ası como los parametros de ellos. Una vez conocidos estos modelos la
funcion aggregateDist en su opcion simulacion: simulation, simulara los datos del modelo de
perdidas agregadas que generan estos dos modelos para, posteriormente, construir la funcion
de distribucion acumulada del modelo agregado.
Metodo de De Pril
Para el Modelo de riesgo Individual tambien se desarrollo una formula recursiva que pro-
porciona la distribucion de S. Este resultado fue desarrollado por Nelson De Pril en 1986 y
considera un portafolio de n asegurados.
En este modelo se denota al numero de asegurados por nij, donde con j se representa la
probabilidad de reclamacion qj; j = 1, 2, ...,m y con i, el monto de la reclamacion realizada;
i = 1, 2, ..., r. De forma que
n =r∑i=1
m∑j=1
nij
Es indispensable que los montos de reclamacion sigan una progresion aritmetica, de manera
que los valores que corren sobre i puedan representar la progresion que tiene la severidad; es
decir, para valores de i = 1, 2, 3, 4 se pueden considerar, por ejemplo, los montos de beneficio
de los asegurados por las cantidades de 3000, 6000, 9000, 12000.
Probabilidad de reclamacion (j)
Monto de reclamacion (i)
q1 q2 · · · qm1 n11 n12 · · · n1m
2 n21 n22 · · · n2m
· · · · · · · · · · · · · · ·r nr1 nr2 · · · nrm
La funcion de densidad para S queda expresada por la siguiente formula recursiva
122
fS (x) =1
x
x∧r∑i=1
bx/ic∑k=1
fS (x− ik)h (i, k) ; x ≥ 1
fS (0) =r∏i=1
m∏j=1
(1− qj)nij
donde
h(i, k) = i(−1)k−1m∑j=1
nij
(qj
1− qj
)k
Dem:
Considerando la f.g.p. de Xij para este caso que involucra la probabilidad de reclamacion qj
y al monto i, entonces con esta nueva notacion
PXij (z) =(1− qj + qjz
i)
Luego la f.g.p. de S por la independencia de las Xijs sera
PS (z) =r∏i=1
m∏j=1
(1− qj + qjz
i)nij
tomando logaritmo y derivando respecto a z
ln [PS (z)] =r∑i=1
m∑j=1
nij ln(1− qj + qjz
i)
d
dzln [PS (z)] =
PS (z)
PS (z)=
r∑i=1
m∑j=1
nij
(iqjz
i−1
1− qj + qjzi
)
Entonces,
PS (z) = PS (z)
[r∑i=1
m∑j=1
nij
(iqjz
i−1
1− qj + qjzi
)]
zPS (z) = PS (z)
[r∑i=1
m∑j=1
nij
(iqjz
i
1− qj + qjzi
)]
123
= PS (z)
[r∑i=1
m∑j=1
nijiqjz
i
1− qj + qjzi1− qj1− qj
]
= PS (z)
[r∑i=1
m∑j=1
nijiqjz
i
1− qj
(1 +
qjzi
1− qj
)−1]
Si utilizamos el hecho de que1
1 + x, se puede expandir como
∞∑k=0
(−1)k xk para |x| < 1.
Entonces tenemos
= PS (z)
[r∑i=1
m∑j=1
nij iqjz
i
1− qj
∞∑k=1
(−1)k−1(
qjzi
1− qj
)k−1]
= PS (z)
[r∑i=1
m∑j=1
nij i∞∑k=1
(−1)k−1(
qj1− qj
)kzik
]
Ahora definimos h (i, k) = i (−1)k−1m∑j=1
nij
(qj
1− qj
)kDebido a que las sumas sobre k y j son absolutamente convergentes en cualquiera de los
dos ordenes que se realicen, entonces es valido intercambiarlas, por lo tanto, regresando al
desarrollo anterior, tenemos que
zPS (z) = PS (z)
[r∑i=1
∞∑k=1
h (i, k) zik
]
como PS (z) = E[zS]
=∞∑x=0
zxP [S = x] =∞∑x=0
zxfS (x) y
PS (z) =∞∑x=0
xzx−1fS (x) =∞∑x=1
xzx−1fS (x)
Entonces,
zP′S(z) = z
∞∑x=1
xzx−1fS (x) =∞∑x=0
xzxfS (x)
124
Por lo tanto
∞∑x=1
xzxfS (x) =∞∑x=0
zxfS (x)r∑i=1
∞∑k=1
h (i, k) zik
El coeficiente para x ≥ 1 de la parte izquierda de la igualdad de zx es xfS (x) y para valores
de i y k tales que 1 ≤ ik ≤ x. Mientras que el coeficiente para zx del otro lado de la
igualdad, es la suma de los terminos fS (x− ik)h (i, k). Se pueden primero establecer los
posibles valores para i de la siguiente forma i = 1, ..., x ∧ r, y por lo tanto los valores para
k son k = 1, ..., bx/ic, donde x ∧ r es el valor mınimo entre x y r, y bx/ic es la parte entera
del cociente x/i. Igualando estos coeficientes se tiene que
xfS (x) =x∧r∑i=1
bx/ic∑k=1
fS (x− ik)h (i, k)
∴ para x ≥ 1 fS (x) =1
x
x∧r∑i=1
bx/ic∑k=1
fS (x− ik)h (i, k)
y para S = 0 que es cuando no se efectua ninguna reclamacion, entonces x = 0 y de ahı
fS (0) =r∏i=1
m∏j=1
(1− qj)nij
De manera explıcita, los primeros terminos de esta formula son
fS (0) =r∏i=1
m∏j=1
(1− qj)nij
fS (1) = fS (0)h(1, 1)
fS (2) =1
2fS (0) [h(1, 2) + h(2, 1)] + fS (1)h(1, 1)
fS (3) =1
3fS (0) [h(1, 3) + h(3, 1)] + fS (1) [h(1, 2) + h(2, 1)] + fS (2)h(1, 1)
...
125
Ejemplo
Una aseguradora posee una cartera de 66 polizas para un seguro de vida. La siguiente tabla
muestra las probabilidades de reclamacion y los montos de reclamacion por grupo de asegura-
dos. Obtener la funcion de densidad de las perdidas agregadas para valores de x = 0, 1, ..., 30
mediante la formula recursiva de De Pril
# polizas Probabilidad de reclamacion Monto de reclamacion20 0.02 500014 0.012 100008 0.05 1500024 0.013 20000
Reescribiendo la tabla conforme a la Formula de De Pril:
Probabilidad de reclamacion (qj)
Monto de reclamacion (i)
0.02 0.012 0.05 0.0131 20 0 0 02 0 14 0 03 0 0 8 04 0 0 0 24
La implementacion de este metodo se realizo en R. A continuacion se muestra una tabla
resumen de los primeros valores de la funcion de densidad y distribucion de S, y su grafica
para x = 0, 1, ..., 30.
x fS (x) FS (x)0 0.2732243 0.27322431 1.115201e− 01 0.38474442 6.808043e− 02 0.45282483 1.366522e− 01 0.58947704 1.408985e− 01 0.73037555 6.588025e− 02 0.7962558
126
0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
Distribución de Reclamaciones Agregadas
Método de De Prils
FS(s
)Densidad de Reclamaciones Agregadas
Método de De Prils
f S(s
)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
127
MEZCLAS DE DISTRIBUCIONES
INTRODUCCION
No siempre es posible modelar datos reales unicamente a traves de una densidad, general-
mente, estos datos presentan formas que no se ajustan adecuadamente a las densidades mas
conocidas en estadıstica. Una manera de lidiar con este problema, es considerar la posibil-
idad de que estos datos con formas no convencionales, puedan modelarse a traves de una
mezcla de densidades o de distribuciones. Dada la flexibilidad que tienen los modelos de
mezclas, es posible lograr un mejor ajuste a estos datos. Una de las formas comunes en
que aparecen este tipo de datos en la teorıa del riesgo es, por ejemplo, cuando los montos
de reclamacion de un seguro presentan una mayor variabilidad de la que puede considerar
cualquiera de los modelos estadısticos utilizados para su ajuste. Por ejemplo, en un seguro
de gastos medicos, si no existe un control de las edades de los asegurados, es muy probable
que se tenga diferente exposicion al riego entre ellos debido a esta diferencia de edades. De
hecho, esta falta de control propicia que la poblacion asegurada sea heterogenea y, como
sabemos, las densidades asumen, generalmente, poblaciones homogeneas.
Una mezcla de distribuciones con k componentes tiene la forma
f (x; θ) = π1f1 (x; θ1) + π2f2 (x; θ2) + · · ·+ πkfk (x; θk) , o
f (x; θ) =k∑i=1
πifi (x; θi) , con
k∑i=1
πi = 1
donde cada componente de la mezcla es una funcion de probabilidad (Poisson, Binomial, etc.)
o una funcion de densidad (Normal, Exponencial, Gamma, etc.), e incluso de distribuciones
multivariadas, y θ y θi, i = 1, 2, ..., k pueden ser vectores de parametros. En este caso,
tenemos una mezcla parametrica, puesto que los componentes de la misma son funciones
parametricas. Si los componentes de la mezcla se especifican de forma no parametrica,
entonces el modelo de mezcla sera tambien no parametrico.
128
Estimacion parametrica del modelo de mezclas
La manera usual de estimar los parametros y las proporciones (πi) es a traves del algoritmo
EM.
Algoritmo EM (Dempster, Laird,and Rubin (1977))
El algoritmo EM (Expectation-Maximization) es un metodo general para encontrar el es-
timador de maxima verosimilitud de los parametros de una distribucion de probabilidad,
especialmente util cuando parte de la informacion es desconocida o incompleta.
Situaciones de Datos Incompletos:
Explıcitas
• Datos Faltantes
• Datos truncados y/o censurados
• Datos agrupados
Implıcitas
• Efectos Aleatorios
• Mezclas
• Clases Latentes
• Estructuras de Variables Latentes
129
El algoritmo EM para mezclas de distribuciones
En el caso de mezclas de distribuciones, lo que desconocemos es la pertenecia o membresıa
de cada dato a alguno de los elementos de la mezcla.
Para fijar ideas, supongamos que la mezcla consta de dos distribuciones: f1 (x; θ1) y f2 (x; θ2) .
En este caso, los parametros a estimar son θ1, θ2, π1, π2 = 1− π1 . La manera estandar de
plantear esta situacion es con Y = (U,V), donde U representa los datos observados y V
representa la membresıa o pertenencia. Concretamente, V = 1 si la observacion es de la
primera distribucion, f1 (x; θ1) , y V = 0 si es de la segunda distribucion, f2 (x; θ2) . La esper-
anza no condicional E(V ) es la probabilidad de que una observacion provenga de la primera
distribucion, que es π1. La informacion completa pero desconocida de esta muestra es: U,
u1, ..., un, que representan los datos observados y V, v1, ..., vn son los datos desconocidos.
Entonces, los datos completos son parejas de la forma (u1, v1) , (u2, v2) , ..., (un, vn) con
vi = 1 o vi = 0.
El algoritmo realiza un proceso iterativo entre
Paso 1. Calcular la esperanza condicional de las cantidades desconocidas dadas las canti-
dades conocidas (Paso E)
Paso 2. Maximizar esta esperanza respecto a los parametros por estimar (Paso M)
Paso 3. Continuar el proceso iterativo hasta lograr convergencia.
Mezcla de distribuciones normales
Uno de los modelos de mezclas mas populares es sin duda el de distribuciones normales. En
un contexto actuarial, el uso de la normal como modelo para ajustar datos, es cuestionable
debido a que su suporte es R, y no R+ que es el soporte natural de los datos de monto
de reclamacion. No obstante, si la media de los modelos subyacentes a la mezcla esta muy
alejada del origen y la varianza no es muy grande, es posible utilizar este modelo de mezclas
para ajustar datos tıpicos de aplicaciones actuariales. El modelo para dos distribuciones
normales en la mezcla tiene la forma
130
f(x;µ1, µ2, σ
21, σ
22, π1
)= π1f1
(x;µ1, σ
21
)+ (1− π1) f2
(x;µ2, σ
22
)con
fi(x, µi, σ2i ) =
1√πσ2
i
exp
− 1
2σ2i
(x− µi)2, i = 1, 2
−4 −2 0 2 4 6 8
0.00
0.05
0.10
0.15
0.20
mezcla de densidades normales
x
Den
sida
d
Supongamos que tenemos n observaciones de X, x1, ..., xn, que representan los datos incom-
pletos. Los datos completos son de la forma (x1, v1), ..., (xn, vn), con vi = 1 o vi = 0.
La verosimilitud completa quedarıa como
Lc(θ; X,V) =n∏i=1
[N1(µ1, σ
21)]vi [N2(µ2, σ
22)]1−vi
Con correspondiente log-verosimilitud
131
`Lc(θ; X,V) =n∑i=1
vilog[N1(µ1, σ
21)]
+ (1− vi)log[N2(µ2, σ
22)]
Entonces, en el paso-E del algoritmo, dado un valor provisional de θ, debemos calcular “el
grado de membresıa” de cada uno de los datos a cualquiera de los dos grupos. Utilizando el
teorema de Bayes, de manera general tenemos que
p(j|xi) =f(xi|j)p(j)
f(x)=
f(xi|j)p(j)∑j f(xi|j)p(j)
En el caso de este ejemplo con dos mezclas normales y dado un valor provisional de θ = θ(k),
tenemos
E(V |xi, θ(k)) = π(k+1)ij =
πk1N1(µ(k)1 , σ2(k)
1 )2∑j=1
πkjNj(µ(k)j , σ2(k)
j )
con π(k)2 = 1− π(k)
1 = 1− π(k)
En cada paso-M, calcularemos los estimadores provisionales de los parametros utilizado el
grado de membresıa calculado en paso-E, previo. Estos grados de membresıa son pon-
deraciones para los estimadores maximo verosımilies. Que en este caso de mezcla de dos
distribuciones normales, adoptan las formas simples.
La expresiones para actualizar cada uno de los parametros involucrados son:
El Paso M : Probabilidad de pertenecer al primer elemento de la mezcla, es
E(V|x, θk
)=
π(k)1 N1
(x;µ
(k)1 , σ2(k)
1
)π(k)1 N1
(x;µ
(k)1 , σ2(k)
1
)+ (1− π(k)
1 )N2
(x;µ
(k)2 , σ2(k)
2
)de donde se desprende
π(k+1)1 =
1
n
n∑i=1
E(V|xi, θk
)132
Que es la proporcion de datos que pertenecen al primer elemento de la mezcla. La demas
actualizaciones son
µ(k+1)1 =
∑ni=1 π
(k+1)1 xi∑n
i=1 π(k+1)1
µ(k+1)2 =
∑ni=1
(1− π(k+1)
1
)xi∑n
i=1
(1− π(k+1)
1
)
σ2(k+1)
1 =
∑ni=1 π
(k+1)1
(xi − µ(k+1)
1
)2∑n
i=1 π(k+1)1
σ2(k+1)
2 =
∑ni=1
(1− π(k+1)
1
)(xi − µ(k+1)
1
)2∑n
i=1
(1− π(k+1)
1
)
Modelos de mezclas mas apropiados para datos actuariales
Es claro que la naturaleza de la informacion que se utiliza en las aplicaciones actuariales,
hace cuestionable que una mezcla de normales pudiera ser un modelo plausible. No obstante,
se puede recurrir a mezclas de modelos que sean de uso comun para modelar datos de esta
area. Por ejemplo, una mezcla de modelos Weibul. Las densidades Weibull con dos o tres
parametros estan dadas por las expresiones
f(x;α, β) =α
β
(x
β
)α−1exp
−(x
β
)α, x ≥ 0
f(x;α, β, γ) =α
β
(x− γβ
)α−1exp
−(x− γβ
)α, 0 < γ ≤ x <∞
con α, β y γ parametros de forma, escala y localizacion, respectivamente. El modelo de
mezclas con dos densidades es
f (x;α1, α2, β1, β2, π1) = π1f1 (x;α1, β1) + (1− π1) f2 (x;α2, β2) , o
f (x;α1, α2, β1, β2, γ1, γ2, π1) = π1f1 (x;α1, β1, γ1) + (1− π1) f2 (x;α2, β2, γ2)
133
2 4 6 8
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
mezcla de densidades Weibull
x
Den
sida
d
Mezcla de densidades exponencial
Otra mezcla que puede ser adecuada para datos actuariales es la de distribuciones exponen-
ciales
f(x; θ) =1
θe−
xθ , x ≥ 0
con modelo para dos mezclas
f (x; θ1, θ2, π1) = π1f1 (x; θ1) + (1− π1) f2 (x; θ2)
134
0.0 0.5 1.0 1.5 2.0
01
23
mezcla de densidades Exponencial
x
Den
sida
d
Mezcla de densidades gamma
Otro de los modelos univariados de gran utilidad en aplicaciones actuariales es la distribucion
Gamma. Por lo que podemos utilizar algun modelo de mezclas con estas densidades
f(x;α, θ) =xα−1e−
xθ
θαΓ (α), x ≥ 0
con mezcla para dos densidades
f (x;α1, α2, θ1, θ2, π1) = π1f1 (x;α1, θ1) + (1− π1) f2 (x;α2, θ2)
135
0 200 400 600 800 1000
0.00
000.
0005
0.00
100.
0015
0.00
20mezcla de densidades gamma
x
Den
sida
d
De hecho, cualquier modelo de uso comun para ajustar este tipo de datos, puede utilizarse
dentro de una mezcla para lograr un mejor ajuste a la informacion. Realizaremos algunos
ajustes a datos simulados y reales utilizando algunos paquetes, como mixtools, de R.
136
Teorıa de la credibilidad
Consideremos un riesgo determinado que proveniente de un conjunto de asegurados vigentes
por un periodo determinado. Si este grupo de asegurados es homogeneo en el sentido de que
todos sus miembros tienen la misma probabilidad de realizar una reclamacion, entonces es
razonable aplicar una misma prima a todos ellos. Sin embargo, cuando el grupo no es ho-
mogeneo, o bien, al paso del tiempo aparecen factores de heterogeneidad dentro del mismo,
habra subgrupos de bajo riesgo y otros de alto riesgo. Cobrar una misma prima a todos
resultarıa injusto, y no serıa conveniente para la aseguradora pues, eventualmente, los ase-
gurados de bajo riesgo buscarıan un mejor trato con otra aseguradora. La idea fundamental
es aplicar primas menores a los asegurados de bajo riesgo y primas mayores a los de alto
riesgo, con base en el historial de reclamaciones que cada uno de los asegurados o subgrupos
hayan realizado durante los periodos anteriores. En la teorıa de la credibilidad se estudian
metodos para el calculo de primas a traves de la combinacion de la experiencia individual
(historial de reclamaciones, datos propios) y la experiencia de grupo (datos del mercado,
contratos similares, experiencia propia acumulada, datos colaterales).
Este escenario plantea entonces que, cada caracterıstica a estimarse en la poblacion, depende
de dos fuentes de informacion (o tiene dos fuentes de datos): Los datos propios o datos indi-
viduales y la informacion colateral, dada por los datos del mercado o la experiencia propia
acumulada. Si basamos esta estimacion solo en los datos propios y estos son escasos, en-
tonces su estimacion sera poco confiable (escencialmente podrıa tener una varianza muy
grande). Por otro lado, si esta estimacion se realizara unicamente con la informacion co-
lateral, que, tal vez, sea basta, podrıa ser que no todos estos datos estuvieran totalmente
relacionados con el mismo riesgo, este podrıa haber sufrido modificaciones, por ejemplo, a
traves del tiempo. Entonces, la mejor alternativa para estimar estas caracterısticas, debiera
ser una combinacion de las dos fuentes de informacion. En concreto, si deamos estimar la
caracterıstica α de la poblacion, nuestro estimador debiera ser
Zαi + (1− Z)αC
Con αi el estimador dado por la informacion individual y αC el estimador dado por la
informacion colateral. Con Z ∈ [0, 1] conocido como factor de credibilidad, generalmente
determinado por los datos individuales y colaterales. Si la informacion generada por la expe-
riencia propia es abundante, este factor deberıa ser cercano a uno, y cercano a cero cuando
137
esta informacion sea muy escasa.
Para asignar el valor de Z en condiciones reales, se toman en cuenta
• El volumen de los datos individuales o propios respecto a los datos colaterales, y
• Diferencias entre datos individuales y colaterales.
Credibilidad total o completa
Supongamos que S representa el riesgo para una aseguradora correspondiente a un asegurado
o un conjunto de asegurados con ciertas caracterısticas particulares, con covertura por un pe-
riodo fijo determinado, por ejemplo, un ano. Sean S1, ..., Sm los montos de las reclamaciones
efectuadas por este asegurado o grupo de asegurados durante m periodos consecutivos, y
sea S = (S1, ..., Sm) /m el promedio de las reclamaciones. Nos interesa estudiar el compor-
tamiento de S a lo largo del tiempo para un conjunto de asegurados en particular, pues
deseamos determinar si la prima que se les cobra a cada uno de ellos es la adecuada. Si las
variables S1, ..., Sm son independientes, e identicamente distribuidas y con esperanza finita,
entonces la ley de los grandes numeros garantiza que la media muestral S converge a E (S),
conforme el numero de sumandos crece a infinito.
138
Convergencia de S
m
S
E(S)
Definicion. Sea k ∈ (0, 1) y p ∈ (0, 1) dos valores fijos. Se dice que S tiene credibilidad total
o completa (k, p), si
P(∣∣S − E(S)
∣∣ ≤ kE (S))≥ p
Esta definicion enuncia que S tiene credibilidad completa si dista de E(S), en menos de
kE(S) con probabilidad mayor o igual a p. Observese que la definicion tiene sentido cuando
E(S) distinta de cero. En la practica, obviamente se toman valores de k cercanos a cero y
valores de p cercanos a uno, tıpicamente k = 0.05 y p = 0.9.
Regresando al esquema de la estimacion a traves de las dos fuentes de informacion: datos
individuales e informacion colateral, nuestra estimacion de S, queda como
ZS + (1− Z)E(S)
Notemos que estamos utilizando la esperanza de S como la informacion colateral. Entonces,
una pregunta que surge de manera natural es: de que tamano debe ser la experiencia propia
139
para que la aseguradora pueda eliminar la informacion colateral?. En otras palabras, cual
es el numero de periodos, m, necesarios para que se cumpla el enunciado de la definicion
anterior?
Credibilidad completa bajo normalidad asintotica
Determinemos una condicion sobre este numero de periodos, m, para obtener credibilidad
completa asumiendo que, bajo el teorema central del lımite, S tiene una distribucion aprox-
imadamente normal. Recordemos que
E(S)
= E (S) y V(S)
=V (S)
m
Entonces
P(∣∣S − E(S)
∣∣ ≤ kE(S))
= P
(∣∣S − E(S)∣∣√
V(S)/m≤ kE(S)√
V(S)/m
)
≈ P
(|Z| ≤ kE(S)√
V(S)/m
)
= P
(− kE(S)√
V(S)/m≤ Z ≤ kE(S)√
V(S)/m
)
= Φ
(kE(S)√V(S)/m
)− Φ
(− kE(S)√
V(S)/m
)
= Φ
(kE(S)√V(S)/m
)− Φ
(1− kE(S)√
V(S)/m
)
= 2Φ
(k√mE(S)√V(S)
)− 1
Como esta probabilidad debe ser mayor o igual a p segun la definicion, tenemos que
2Φ
(k√mE(S)√V(S)
)≥ 1 + p
2
140
Lo que queremos es encontrar el valor de m mas pequeno que cumpla esta desigualdad, que
es aquel que cumple con la igualdad en esta ecuacion. Denotemos por zq al cuantil de orden
q de la normal estandar, i.e., Φ(zq) = q. Entonces, el valor mınimo de m para garantizar
credibilidad total o completa es tal que
k√mE(S)√V(S)
≥ z(1+p)/2
y despejando m obtenemos
m ≥z2(1+p)/2V(S)
k2E2(S)
Las cantidades E(S) y V(S) pueden estimarse por medio de la media y varianza muestral,
respectivamente, usando la informacion que se tenga a disposicion al momento de hacer el
analisis. Substituyendo estos valores en la formula se puede conocer una aproximacion del
numero de periodos m de historial para que S tenga credibilidad completa. Observese que
cuando p crece, es decir, cuando se desea tener una mayor confianza en la estimacion de S,
entonces el numero de periodos de observacion m tambien crece. Si ademas queremos que
el parametro k decrezca tambien, es decir, si se pide que la distancia entre S y E(S) tenga
menor amplitud, entonces m crece. En resumen, si requerimos condiciones muy exigentes a
estos parametros, el precio que hay que pagar es un mayor numero de periodos del historial,
de lo contrario, necesitaremos menos periodos.
Ejemplo
Supongamos que N denota la v.a. que representa el numero de recamaciones de un portafo-
lio de seguros, durante determinado periodo. Asumamos como es costumbre que N ∼
Poisson(λ). Supongamos ademas que la variable de monto de reclamacion Xi, sigue una
distribucion Weibull(α, β).
Recordemos que, dado que N es Poisson, entonces el modelo para S es Poisson compuesto.
Con
141
E(S) = E(N)E(Xi) = λβΓ
(1 +
1
α
)y
V (S) = λβ2Γ
(1 +
2
α
)
Encontrar el valor mınimo de m, para tener credibilidad total, si p = 0.9 y k = 0.05. Real-
izando un calculo simple obtenemos
m ≥1.962λβ2Γ
(1 + 2
α
)(0.05)2λ2β2Γ2
(1 + 1
α
)⇒ λm ≥ 1536.64
Γ(1 + 2
α
)Γ2(1 + 1
α
)Observemos que λm representa el total de reclamaciones promedio durante m periodos.
Ejemplo 2
La siguiente tabla corresponde a una muestra de 100 reclamaciones sobre un seguro. Supong-
amos que la tasa media de reclamacion es de 0.015. Calcular el numero mınimo de reclama-
ciones esperadas, ası como el tamano aproximado que debera tener el portafolio de experi-
encia para asignarle credibilidad total con k = 0.05 y p = 0.9
Tabla
Monto de reclamacion Numero de reclamaciones
0− 400 2400− 800 24800− 1200 321200− 1600 211600− 2000 102000− 2400 62400− 2800 32800− 3200 13200− 3600 1
Entonces, recordemos que, en general
E (S) = E (N)E (X) y V (S) = E (N)V (X) + V (N)E2 (X)
142
En este caso, utilizaremos las verisiones empıricas
E (N) = N = 11.11111; V (N) = 135.1111
E (X) = X = 1216; E2 (X) = 1841600
Entonces
E (S) = 11.11111 ∗ 1216 = 13511.11 y
V (S) = 11.11111 ∗ (1841600− 12162) + 135.1111 ∗ 1841600 = 252853312
m ≥ 1536.64252853312
13511.112= 2128.427
143
Credibilidad parcial
En muchas ocaciones reales, la experiencia acumulada no es tan grande como para otorgarle
credibilidad total o completa, solamente creibilidad parcial, (Z < 1). Entonces, necesitamos
determinar que valor habra que asignarle a Z, para que nuestro estimador S cumpla las
mismas condiciones anteriores. Por lo que, en la combinacion lineal convexa que determi-
namos para estimar S, ZS + (1− Z). Procediendo de manera semejante al desarrollo para
creibilidad total, tenemos que
P(∣∣Z (S − E(S)
)≤ kE(S)
∣∣) ≥ p
que podemos reescribir como
P(∣∣∣∣(S − E(S)
)≤ k
ZE(S)
∣∣∣∣) ≥ p
condicion similar a la de credibilidad completa, cambiando k, por k/Z. Es decir, la credibili-
dad parcial (k, p), para ZS+(1−Z)E(S), es equivalente a la credibilidad completa (p, k/Z),
para S.
Credibilidad parcial bajo normalidad asintotica
De manera totalmente analoga al desarrollo para credibilidad completa, bajo la hipotesis de
normalidad asintotica para S y para los valores de k y p mencionados anteriormente, se tiene
la aproximacion
m ≥Z2z2(1+p)/2V (S)
k2E2 (S)
de donde obtenemos
Z =kE (S)
√m
z(1+p)/2√
V (S)
Este valor de Z excede el valor de uno para valores suficientemente grandes de m, por lo
tanto se define el factor de credibilidad como
144
Z = min
kE (S)
√m
z(1+p)/2√V (S)
, 1
Ejemplo. Retomemando nuestro primer ejemplo
Donde N ∼ Poisson(λ) y Xi, sigue una distribucion Weibull(α, β), con k=0.05 y p=0.9.
Calculemos la condicion de crdibilidad parcial para ZS+(1−Z)E(S). En este caso tenemos
que
⇒ λm ≥ 1536.64Γ(1 + 2
α
)Γ2(1 + 1
α
)Z2
Si tomamos la igualda y despejamos Z, obtenemos
Z =
√λmΓ
(1 + 1
α
)39.2
√Γ(1 + 2
α
)Entonces, la combinacion lineal queda como
√λmΓ
(1 + 1
α
)39.2
√Γ(1 + 2
α
) S +
1−√λmΓ
(1 + 1
α
)39.2
√Γ(1 + 2
α
)E (S)
con E (S) es el valor esperado teorico de S y S es la experiencia observada.
145
Creibilidad Bayesiana
La estadıstica Bayesiana consituye una manera natural de incorporar el historial de reclama-
ciones (informacion) de un grupo de asegurados en el calculo de las primas. Una aseguradora
que ha tenido mucha experiencia realizando este calculo, tendra una estimacion mas precisa
de estas primas; no obstante, solo sera una estimacion que debera actualizar tan pronto
tenga mas informacion a mano. Por el contrario, una nueva aseguradora en el mercado,
tendra poca o nula informacion propia en la que basar sus estimaciones, por lo que dicha
estimacion sera muy incierta y, tal vez, este basada en la informacion del mercado o de juicios
subjetivos de especialistas del area, por lo que le resultara de suma importancia actualizarla
en cuanto empiece a acumular informacion propia.
Enfoque Bayesiano
En la estadıstica tradicional, enfoque clasico, uno de los problemas inferenciales mas im-
portantes es la estimacion del parametro, θ, de una distribucion de probabilidad, f(x; θ).
Para realizar dicha estimacion seleccionamos una muestra aleatoria de esta distribucion y se
tienen distintos metodos para estimar θ, considerando siempre que este parametro tiene un
valor desconocido y fijo. En el enfoque Bayesiano, θ, se trata como una variable aleatoria
para la que se supone una distribucion de probabilidad, p(θ), llamada distribucion inicial o
distribucion apriori. Esta distribucion refleja la informacion subjetiva o cuantitativa que el
observador pueda tener sobre este parametro, θ, antes de observar la muestra.
Actualizacion de la informacion a traves del teorema de Bayes
La forma en la que se actualiza la informacion inicial sobre nuestro parametros de interes,
θ, mediante la informacion contenida en la muestra, p(x|θ) = L(θ;X) (la verosimilitud), es
a traves del teorema de Bayes.
Teorema de Bayes
Dados dos eventos A y B tales que P(B) > 0, la probabilidad condicional de A dado B,
P(A|B), se define como
P(A|B) =P(B ∩ A)
P(B)=
P(B|A)P(A)
P(B)
146
Teorema de Bayes
Si Ai : i = 1, 2, ...,M es un conjunto exhaustivo de eventos mutuamente excluyentes, en-
tonces
P(Ai|B) =P(B|Ai)P(Ai)
M∑j=1
P(B|Aj)P(Aj)
La forma esquematica de actualizar esta informacion a traves del teorema de Bayes es la
siguiente
• θ debe tener una distribucion de probabilidad, p(θ), que refleje nuestro conocimiento inicial
acerca de su valor.
• La informacion sobre θ que contiene la muestra aleatoria seleccionada, esta resumida en la
verosimilitud: p(x|θ) = L(θ;X)
Por lo tanto, nuestro conocimiento acerca del valor de θ queda descrito a traves de su dis-
tribucion final
p(θ|X)
El Teorema de Bayes nos dice como encontrarla:
p(θ|X) =p(x|θ)p(θ)∫p(x|θ)p(θ)dθ
Este proceso se conoce como el proceso de actualizacion de la informacion sobre θ, y es la
manera de combinar las dos fuentes de informacion que tenemos: La inicial, dada a traves
de p(θ), y la de la muestra, dada por medio de la verosimilitud: p(x|θ), para obtener la
distribucion final: p(θ|X), que contiene la suma de estas dos fuentes de informacion.
Observese que el denominador, p(x) =
∫p(x|θ)p(θ)dθ, no depende de θ, por lo que es comun
escribir esta distribucion final como
147
p(θ|x) ∝ p(x|θ)p(θ)
En la practica, el calculo de la distribucion final puede ser un asunto complicado, especial-
mente si la dimension del parametro es grande.
Sin embargo, para ciertas combinaciones de distribuciones iniciales y verosimilitudes es posi-
ble simplificar el analisis.
En otros casos se requieren aproximaciones analıticas y/o tecnicas computacionales relativa-
mente sofisticadas.
Familias conjugadas
Comentamos en uno de los puntos anteriores, que existen ciertas combinaciones de distribu-
ciones iniciales y verosimilitudes, que simplifican el analisis Bayesiano, esencialmente, porque
el modelo de la distribucion final de θ, pertenece a la misma familia que el de la inicial.
Definicion. Sea P = p(x|θ) : θ ∈ Θ una familia parametrica. Una clase (o coleccion) de
distribuciones de probabilidad F es una familia conjugada para P si para toda p(x|θ) ∈P
y p(θ) ∈ F se tiene que p(θ|x) ∈ F
Algunos modelos parametricos univariados con sus respectivas familias conjugadas:
Familia parametrica Familia Conjugada
Bernoulli(x|θ) Beta(θ|α, β)Poisson(x|λ) Gamma(λ|α, β)
Geometrica(x|θ) Beta(θ|α, β)Exponencial(x|λ) Gamma(λ|α, β)Uniforme(x|0, θ) Pareto(λ|α, β)Normal(x|µ) Normal(µ|µ0, λ0)Normal(x|λ) Gamma(λ|α, β)Normal(x|µ, λ) Normal −Gamma(µ, λ|µ0, λ0, α, β)
148
Ejemplo. Consideremos la familia parametrica P = Poisson(x|λ) : λ ∈ R+. Si utilizamos
como distribucion inicial p(λ) ∈ F = Gamma(λ|α, β) : α, β ∈ R+. Entonces, si se tiene
una muestra aleatoria x = (x1, ..., xn), la distribucion final es
p(λ|X) = Gamma(λ|α + r, n+ β)
con r =n∑i=1
xi.
Dem. Solo demostraremos que el kernel de la distribucion final, pertenece a la distribucion
Gamma(λ|α + r, n+ β).
Sabemos, por Bayes, que
p(λ|X) =p(x|λ)p(λ)∫p(x|λ)p(λ)dλ
con
p(x|λ) =n∏i=1
λxie−λ
xi!∝ λ
∑ni=1 xie−nλ y
p(λ) =βαλα−1e−βλ
Γ (α), por lo que
p(λ|X) ∝ λ∑ni=1 xie−nλλα−1e−βλ = λα+
∑ni=1 xi−1e−λ(β+n) ∝ Gamma
(α +
n∑i=1
xi, β + n
)Aplicacion a la teorıa de credibilidad
Por lo general, la tasa de frecuencia de reclamacion, λ, de un seguro presenta incertidumbre,
por lo que se puede suponer que sus valores estan dados mediante una distribucion de prob-
abilidades. El rango de definicion de esta tasa es λ ∈ (0,∞), por lo que una distribucion
adecuada para ella puede ser la Gamma(α, β). Consideremos tambien que el numero de
reclamaciones sigue una distribucion Poisson(λ) y tenemos m polizas o periodos de obser-
vacion independientes. Entonces la distribucion final de la tasa de frecuencia de reclamacion
es una Gamma con las caracterısticas anteriores. Esta distribucion final tiene media
149
α +∑m
i=1 xiβ +m
=α +mS
β +m
=m
β +mS +
β
β +m
α
β
= ZS + (1− Z)α
β
con Z =m
m+ βel factor de credibilidad. Este factor crece de forma monotona a uno cuando
m tiende a infinito, dando, como es logico, cada vez mas credibilidad a la media muestral S,
es decir, a la informacion individual o de la Cıa., y menor credibilidad a la media teorica o
poblacional, que representa la informacion colateral. Ademas si m tiende a infinito la media
de la distribucion final o aposteriori converge a la media muestral lımite dada por el historial
de reclamaciones; y la varianza de esta tasa, λ, que es
α +mS
(m+ β)2
converge a cero, lo cual indica que la distribucion final se concentra cada vez mas alrededor
de su media.
Ejemplo: Estimacion del fraude en un tipo de poliza
Un actuario desea estimar la proporcion, θ, de fraude en un determinado tipo de poliza.
Para esto, se realizan inspecciones aleatorias a las reclamaciones realizadas. Se sabe que el
fraude en el sector es del 4% con una desviacion estandard del 2%. Se inspeccionan un total
de 240 polizas, y se determina que 22 de ellas son fraudulentas. El actuario quiere combinar
estas dos fuentes de informacion (Sector y Cıa.) para actualizar esta proporcion de freude.
Sea X v.a. que representa el numero de polizas fraudulentas en un total de n inspecciones.
Es claro que X tiene una distribucion Binomial(n, θ).
f (x|θ) =
(n
x
)θx(1− θ)n−x, x = 0, 1, ..., n; θ ∈ (0, 1)
150
Bajo el enfoque Bayesiano, debemos asignar una distribucion inicial a θ. El hecho de que
su espacio parametral sea (0, 1), nos obliga a buscar una distribucion que tenga flexibili-
dad (distintas formas posibles) en este intervalo; una eleccion que parece conveniente, es la
distribucion beta.
0.0 0.5 1.0 1.5 2.0
02
46
810
Diversas formas de la distribución Beta
x
Bet
a
a1= 0.5 , a2= 3a1= 1 , a2= 3a1= 1.5 , a2= 3a1= 3 , a2= 3a1= 5 , a2= 3a1= 7 , a2= 3
0.0 0.5 1.0 1.5 2.0
02
46
8
Diversas formas de la distribución Beta
x
Bet
a
a1= 3 , a2= 1a1= 3 , a2= 0.8a1= 3 , a2= 0.6a1= 3 , a2= 0.4a1= 3 , a2= 0.2a1= 3 , a2= 0.1
cuya funcion de densidad es
p(θ;α, β) =θα−1(1− θ)β−1
Beta(α, β); θ ∈ (0, 1), α > 0, β > 0
con α y β parametros de la distribucion inicial, conocidos como hiperparametros, que se
pueden estimar a partir de la informacion inicial sobre θ, cuya distribucion inicial supusimos
Beta(α, θ), de la siguiente forma
E (θ) =α
α + β= 0.04, y
V (θ) =αβ
(α + β + 1)(α + β)2= 0.022
151
cuya solucion es: α = 0.02386583 y β = 0.000009779513.
Para encontrar la distribucion final de θ dados los datos observados, utilizaremos el teorema
de Bayes para distribuciones. Sabemos que, en este caso, la distribucion final tambien debe
ser una Beta, porque es conjugada para la Bernoulli. Por lo que solo resta ver como se
actualizan los parametros de la Beta inicial (Modelo Beta-Binomial). Entonces
p(θ|X) =f(x|θ)Beta(θ|α, β)∫ 1
0
f(x|θ)Beta(θ|α, β)dθ
=
(n
x
)θx(1− θ)n−x θ
α−1(1− θ)β−1
Beta (α, β)∫ 1
0
(n
x
)θx(1− θ)n−x θ
α−1(1− θ)β−1
Beta (α, β)dθ
=θx+α−1(1− θ)n−x+β−1
Beta(x+ α, n− x+ β)
Por lo tanto
p(θ|x) = Beta(x+ α, n− x+ β)
Con x el valor observado de la Binomial. Entonces, la media de la distribucion final, que es
la proporcion de fraude actualizada, es
E (θ|x) =α + x
α + β + n
=n
α + β + n
x
n+
α + β
α + β + n
α
α + β
=n
α + β + nθ +
α + β
α + β + nE(θ)
que representa la formula de credibilidad, donde se combinan la experiencia del sector (colec-
tivo) y la informacion de la Cıa. (individual). Con el factor de credibilidad dado por
152
Z =n
α + β + n
Finalmente, la proporcion de fraude actualizada es 0.09175698 y factor de credibilidad
Z = 0.9999005. Para construir un intervalo de probabilidad sobre esta proporcion. Debemos
encontrar los lımites (l, u), sobre la distribucion final de θ, tal que
P (l ≤ θ|x ≤ u) = 1− q
con 0 < q < 1, la probabilidad de cobertura deseada.
Calculo Bayesiano de primas de seguros
El uso de las distribuciones iniciales que tienen un caracter evidentemente subjetivo, resulta
de utilidad en el mercado de seguros, sobre todo si se tiene en cuenta que cuando se quiere
tarifar un riesgo nuevo no se dispone de informacion para ello.
La vision Bayesiana se incorporo rapidamente a la disciplina actuarial, demostrando que
algunas primas que se obtienen a traves de la metodologıa Bayesiana pueden escribirse como
formulas de credibilidad.
En estos terminos actuariales, la cuestion basica de credibilidad es determinar una prima
establecida como una combinacion lineal convexa entre la experiencia particular de un ase-
gurado y la experiencia del colectivo, esto es, toda la cartera. Es decir
Pj = ZP + (1− Z)P0
Con
• Pj prima a aplicar a los asegurados por el riesgo j.
• P0 prima a aplicar a un colectivo al que pertenece el asegurado j.
• P Prima calculada con base en la experiencia del asegurado j.
• Z Factor de credibilidad. Que debe verificar las condiciones: limm→∞Z = 1, con m el
numero de sujetos expuestos al riesgo j o el periodo de observacion de la poliza j. Entonces,
si Z = 1 la experiencia del asegurador recibe credibilidad total o del 100%, mientras que si
153
Z = 0, Pj = P0 y la prima del asegurado j coincide con la del colectivo a la que pertenece
dicha poliza, o la experiencia del colectivo recibe credibilidad total o del 100%.
Entonces, desde el punto de vista Bayesiano, esta formula de credibilidad puede interpretarse
como: Podemos considerar P0 como la informacion inicial o a priori. A P como la nueva
informacion que se obtiene mediante la observacion de la siniestralidad del riesgo j (los datos
recabados; la informacion recabada) y Pj la actualizacion del calculo de la poliza (prima a
posteriori), resultado de combinar la informacion inicial con la informacion recabada. Por lo
tanto
Prima(a posteriori) = (1− Z) ∗ Prima a priori + Z ∗ Experiencia dada por los datos
De esta manera, la teorıa de la credibilidad Bayesiana, sigue un esquema donde la infor-
macion a priori sobre el calculo de las primas, se actualiza con la informacion dada por
la observacion del siniestro (muestra), dando como resultado la actualizacion de la prima,
mediante el calculo de la prima a posteriori.
154
Procesos estocasticos
En este apartado haremos una presentacion breve de diversos aspectos relacionados a los
procesos estocasticos. Se definiran algunos conceptos y propiedades de ellos, ademas de pro-
porcionar ejemplos particulares de procesos estocasticos. Estas herramientas seran de gran
utilidad para el estudio de la teorıa de la ruina y de reservas, que son nuestros objetivos
finales del curso.
Proceso estocastico
Def. Un proceso estocastico es una coleccion Xtt∈T de variables aleatorias indexadas por
un conjunto, T, y definidas en algun espacio de probabilidad (Ω,F ,P). Consideramos al
conjunto de ındices, T, como un parametro temporal, por ejemplo: 0, 1, ..., n, N, [0, t]
o [0,∞). Interpretamos un proceso estocastico como la evolucion en el tiempo de algun
fenomeno cuyo comportamiento lo rige el azar (es aleatorio). Un ejemplo dentro del area
actuarial esta determinado por la evolucion en el tiempo, de la reserva de una companıa de
seguros. En finanzas, por ejemplo, Xt puede representar el precio de una accion bursatil
al tiempo, t. En un contexto mas trivial, la cantidad de soles (aguilas) acumuladas en
una sucesion de lanzamientos de una moneda (“volados”) tambien constituye un proceso
estocastico.
En el segundo ejemplo, se puede indexar al proceso por algun intervalo de numeros naturales,
en cuyo caso hablaremos de un proceso estocastico a tiempo discreto. Ademas, dicho proceso
toma valores en los naturales, por lo que tambien se trata de un proceso con espacio de esta-
dos discreto. En el primer caso, se puede pensar en un modelo indexado por un subintervalo
de [0,∞) y hablaremos de un proceso estocastico a tiempo continuo. Ademas, en principio,
el valor de la reserva podrıa ser cualquier real no-negativo y por lo tanto hablamos de un
proceso con espacio de estados continuo.
Ejemplos
Caminatas aleatorias y el problema de la ruina. Modelemos la siguiente situacion: Tenemos
un capital de 50 pesos al tiempo cero y cada instante de tiempo apostamos un peso en un
“volado”, ganando si cae aguila. ¿Como podemos modelar y estudiar la evolucion de nuestro
capital a traves del tiempo?. Un particular interes es la variable aleatoria que nos indica el
155
instante en que nos arruinemos por primera vez, misma que a priori podrıa ser infinita si
jamas nos ocurre este evento (“sı, como no”).
Entonces, nuestro modelo se construye de la siguiente manera. Sean U1, U2, ... variables
aleatorias uniformes en (0, 1), independientes. Sea 1Ui≤1/2, la variable aleatoria indicadora
que denota si el resultado del i-esimo lanzamiento fue aguila (Ui = 1) y, por tanto, la variable
aleatoria 21Ui≤1/2 − 1, toma los valores 1 si cae la moneda aguila y -1 si cae la moneda sol.
Con estas consideraciones, podemos definir nuestro modelo como
X0 = 50, y Xn+1 = Xn + 21Un+1≤1/2 − 1
0 500 1000 1500 2000
020
4060
80
Trayectoria del proceso de ruina del jugador
t
Xn
Ejemplo 2 Queriendo arruinarse pronto. Modifiquemos el proceso anterior de la siguiente
manera. Capital inicial $50. A cada instante de tiempo apostamos en un “volado” o la
mitad de nuestro capital si tenemos mas de 10 pesos o 2 pesos si este es menor o igual a 10,
ganando si cae aguila. En este caso nuestro modelo es
156
X0 = 50, y Xn+1 = Xn +(21Un+1≤1/2 − 1
)⌊Xn
2
⌋si Xn > 10
2 si Xn ≤ 10
0 5 10 15 20 25 30
010
2030
4050
Trayectoria del proceso modificado de ruina del jugador
t
Xn
Ejemplo 3. Tiempos de espera. En este caso lo que deseamos modelar es el proceso que
generan los clientes que van llegando en tiempos aleatorios, por ejemplo, a una fila unica del
banco, que requieren un servicio cuyo tiempo de atencion tambien es una variable aleatoria.
Lo que deseamos es al caracterizar este proceso es determinar ¿cuanto tiempo debe esperar
un cliente que llega al momento t, para salir del banco?.
El modelo usual para esta situacion asume que los tiempos sucesivos entre los arribos de los
clientes, son variables aleatorias exponenciales con parametro λi. Ademas, se puede suponer
que los tiempos de servicio son variables aleatorias independientes con distribucion comun
exponencial, de tasa λs. Se supone que todas las variables involucradas son independientes.
Entonces, la construccion del modelo es como sigue
Sean S1, S2, ... variables exponenciales independientes de parametro λi y ξ1, ξ2, ... variables
157
exponenciales independientes de parametro λs. Con
T0, Tn+1 = Tn + Sn+1, Nt =∞∑n=1
1Tn≤t, R0, Rn+1 = Rn + ξn+1
Definimos los procesos
Xt = RNt − t y Qt = Xt −mins≤t
Xs
Por lo tanto, Qt representa el tiempo de servicio necesario para atender a los clientes que se
encuentran presentes en el banco al tiempo, t, que es nuestro proceso a estudiar.
0 100 200 300 400
010
2030
4050
Trayectoria del proceso de tiempos de espera con tasas iguales de llegada y servicio
t
Q(t)
158
Cadenas de Markov a tiempo discreto
Def. Una cadena de Markov con matriz de transicion P y distribucion inicial π, es un pro-
ceso estocastico Xnn∈N con valores en el espacio de estados, E, tal que si x0, x1, ..., xn ∈ E,
entonces
P (X0 = x0, ..., Xn = xn) = πx0Px0,x1 · · ·Pxn−1,xn
Propiedad de Markov. Sea X una cadena de Markov con matriz de transicion P y distribucion
inicia π. Si P (X0 = x0, ..., Xn = xn) > 0, entonces
P (Xn+1 = xn+1|X0 = x0, ..., Xn = xn) = P (Xn+1 = xn+1|Xn = xn)
Que enuncia que la evolucion futura de la cadena solo depende de su pasado a traves del
presente. Enunciado de otra forma
Propiedad de Markov. Un proceso estocastico a tiempo discreto y con espacio de estados
discreto es Markoviano si y solo si, la probabilidad condicional de estar en el estado Xt+1
dados los estados anteriores X0, X1, ..., Xn, solo depende del estado mas reciente Xn.
P (Xn+1|X0, X1, ..., Xn) = P (Xn+1|Xn)
Ejemplo 1 : Caminata aleatoria simple. La caminata aleatoria simple es una cadena de
Markov cuyo espacio de estados es Z y es tal que Pn,n+1 = 1 − Pn,n−1 con p ∈ (0, 1). Este
ejemplo ya lo vimos anteriormente. La grafica de una trayectoria del proceso obtenidad a
traves de simulacion es
159
0 20 40 60 80 100
05
1015
Caminata aleatoria simple
t
Xt
Algunas caracterısticas relevantes de una cadena de Markov.
• Si es posible ir a cualquier estado de la cadena de Markov en uno o mas pasos, entonces la
cadena es irreducible.
• Si estando en algun estado, se regresa a el solo en intervalos regulares, la cadena se llama
periodica, de lo contrario se denomina aperiodica.
• Supongamos que podemos encontrar un vector de probabilidades w tal que wP = w,
entonces se dice que w es la distribucion estacionaria de la cadena.
• Equivalentemente, una cadena es estacionaria si existe una funcion de distribucion de
probabilidad f tal que si Xt ∼ f , entonces, Xt+1 ∼ f . Por lo tanto, formalmente, el kernel
y la funcion de distribucion estacionaria cumplen la ecuacion
∫K(x, y)f(x) = f(y)
• Si una cadena de Markov es irreducible y aperiodica, entonces tiene una unica distribucion
160
estacionaria.
• En el caso de que la cadena sea ademas recurrente, la distribucion estacionaria es tambien
la distribucion lımite, en el sentido de que la distribucion lımite de Xt es f casi para cualquier
valor inicial X0. Esta propiedad tambien es conocida como ergodicidad, y obviamente tiene
una gran consecuencia desde el punto de vista de la simulacion, ya que si un kernel dado,
K, produce una cadena de Markov ergodica con distribucion estacionaria f, generando una
cadena de valores de este kernel, eventualmente produciremos simulaciones de f. En partic-
ular, para funciones integrables h, el promedio
1
T
T∑t=1
h(Xt)→ Ef [h(X)]
lo significa que la ley de los grandes numeros valida para los metodos Monte Carlo, puede
aplicarse en el contexto de MCMC. (Teorema ergodico).
Ejemplo: Un dıa de trabajo.
Veamos un ejemplo simple que genera una cadena de Markov a partir de una matriz de
transicion.
• Cada dıa me levanto e intento hacer la mayor cantidad de mi trabajo pendiente.
• Enciendo la computadora y me pongo a trabajar.
• Es bastante facil que me distraiga del trabajo. Despues de cada minuto de trabajo, tengo
solo una probabilidad de 0.4 de continuar trabajando al minuto siguiente. Con probabilidad
0.6 inicio una navegacion por INTERNET.
• Navegar en la red es bastante adictivo. Despues de navegar un minuto, mi probabilidad
de regresar a trabajar es tan solo de 0.1. Con probabilidad 0.6, sigo navegando en la red.
Con probabilidad 0.3 reviso mi correo electronico.
• Con probabilidad 0.5 regreso a mi trabajo. Con la misma probabilidad, continuo revisando
mi correo electronico.
161
Mi matriz de transicion
trabajo internet e−mail
trabajo 0.4 0.6 0
internet 0.1 0.6 0.3
e−mail 0.5 0 0.5
Es una matriz de transicion de una Cadena de Markov. Todas sus entradas son no negati-
vas y sus renglones suman uno, y cumplira todas las condiciones de aperiodica, irreducible,
recurrente, etc.?
162
El proceso Poisson
Dada la dependencia del modelo de Camer-Lundberg (que enunciaremos posteriormente) del
proceso Poisson, lo definiremos en seguida.
Def. 1 : Un proceso estocastico, X(t), t ≥ 0, a tiempo continuo, se dice que es de incre-
mentos independientes si para cada t0 < t1 < · · · < tn, con t0, t1, ..., tn ∈ T se tiene que
X(t1)−X(t0), X(t2)−X(t1), ..., X(tn)−X(tn−1)
son variables aleatorias independientes.
Def. 2 : Un proceso estocastico, X(t), t ≥ 0, a tiempo continuo, es de incrementos esta-
cionarios si la distribucion, dado t ∈ T , de
X(t+ s)−X(t)
es la misma ∀s ∈ T .
• En un proceso con incrementos estacionarios, cambios en el proceso de igual tamano son
iguales en distribucion.
Def. 3 : Un proceso estocastico a tiempo continuo, N(t), t ≥ 0, se dice puntual o de con-
teo, si N(t) representa el numero de veces que ocurre un suceso hasta el instante de tiempo, t.
• En particular
• N(t) ∈ N, ∀ t ∈ T
• N(s) ≤ N(t), si s < t (Los incrementos son no negativos)
• Por lo tanto, un proceso de conteo es de incrementos independientes si el numero de sucesos
en intervalos de tiempo que no se traslapan son variables aleatorias independientes.
• Y es de incrementos estacionarios, si el numero de sucesos en un intervalo de tiempo es el
mismo en intervalos de igual longitud.
163
• Un uso muy frecuente de la distribucion de Poisson surge en situaciones en las que los
eventos ocurren a lo largo del tiempo, por ejemplo: ocurrencia de terremotos, personas que
ingresan a un banco, llegadas a un servidor, emisiones de partıculas por una fuente radiac-
tiva, etc.
Def. 4 : Un proceso de conteo N(t), t ≥ 0, se dice de Poisson (homogeneo), con tasa de
intesidad, λ, si
• N(0) = 0
• Es de incrementos independientes
•
P (N(t+ s)−N(s) = n) =(λt)n e−λt
n!, ∀n ∈ N, ∀s, t > 0
• De la definicion es claro que el proceso es de incrementos estacionarios, y los incremen-
tos siguen una distribucion Poisson de parametro λt para intervalos de tiempo de longitud, t.
• El numero promedio de eventos hasta el instante, t, es
E [N(t)] = E [N(t+ 0)−N(0)] = λt
• V [N(t)] = λt
• Para cualquier intervalo de longitud, t, se tiene
E [N(s+ t)−N(s)] = E [N(t)] = λt
164
0 20 40 60 80
05
1015
2025
30Trayectoria: Proceso Poisson
t
N(t
)
165
Proceso de Poisson no homogeneo (o no estacionario). En muchas situaciones es mas realista
suponer que hay mas incidencias a ciertas horas (o en ciertos intervalos) que a otras. Para
modelar esta situacion, es conveniente la siguiente generalizacion del Proceso Poisson.
Def. 5 : Decimos que N(t), t ≥ 0, es un Proceso Poisson no homogeneo, con tasa de in-
tesidad, λt, si
• N(0) = 0
• Es de incrementos independientes
•
P (N(t+ s)−N(s) = n) =
∫ t+s
s
λ(x)dx, ∀s ≥ 0, t > 0
• En otras palabras, para cada s ≥ 0 y t > 0 se tiene que N(t + s) − N(s) es una variable
aleatoria Poisson con media
m(t+ s)−m(t) =
∫ t+s
s
λ(x)dx
• N(t) tiene distribucion Poisson con esperanza
m(t) =
∫ t
0
λ(x)dx
• Si λt = λ (constante), entonces N(t + s) − N(s) es una variable aleatoria Poisson con
media λt.
166
Esperanza Condicional
Antes de dar una definicion formal sobre la esperanza condicional, hagamos una introduccion
simple de este concepto.
Supongamos que X es una v.a. que denota el resultado de un experimento aleatorio.
• Si no tenemos informacion sobre el resultado del experimento, entonces, nuestra mejor
conjetura (apuesta) sobre el valor de X sera, E (X), la esperanza o valor esperado de X.
• Si conocemos el resultado del experimento, entonces conocemos el valor exacto de X.
• Frecuentemente conocemos el valor de otra variable aleatoria Y que esta relacionada con
X. En este caso, la mejor prediccion del valor de X sera la esperanza condicional E[X|Y ].
La esperanza condicional, E[X|Y ], es una nueva variable aleatoria de la forma, g(Y ), que
aproxima X, usando la informacion sobre v.a. Y.
Ejemplo
Consideremos el experimento de lanzar un dado dos veces. Sean Y y Z los puntajes que
aparecen en el primero y segundo lanzamiento, respectivamente. Sabemos que
E [Y ] =6∑y=1
xP [Y = y] = 3.5, y E [Z] =6∑z=1
zP [Z = z] = 3.5
y, por independencia entre Y y Z,
E [Z|Y ] = E [Z] = 3.5
En este caso, la funcion g es constante como funcion de y, lo que implica que conocer Y no
sirve para predecir Z o no aporta informacion sobre Z ).
• Ahora, consideremos la v.a. X = Y + Z . Es claro que X y Y son, ahora, variables
aleatorias dependientes. Entonces,
E [X|Y ] = E [Y + Z|Y ] = E [Y |Y ] + E [Z|Y ] = Y + E [Z] = Y + 3.5
167
Entonces, E [X|Y ] = Y + 3.5 = g(Y ), que es una v.a.
Ostro
Ahora supongamos que lanzamos un dado hasta obtener un seis. Sea Y el numero total de
lanzamientos del dado, y X el numero de unos observado. Calcular E [Y |X].
El evento Y = y − 1 significa que se realizaron y − 1 lanzamientos en los que no se observo
un seis, y que el seis se observo en el lanzamiento y. Entonces, dado este evento, X tiene
una distribucion Binomial(y − 1, 15). Entonces
E [X|Y ] = np =1
5(y − 1)
que es una funcion de Y .
168
Las siguientes definiciones y resultados requieren de un espacio de probabilidad. Entonces
Sea (Ω,A ,P) un espacio de probabilidad
Definicion 1 Sea X una variable aleatoria con esperanza 2 finita, y sea F una sub σ-
algebra de A . La esperanza condicional de X dado F , E[X|F ] , es una variable aleatoria
que cumple:
• Es F -medible
• Tiene Esperanza finita
•∫BXdP =
∫BE[X|F ]dP ∀ B ∈ F
Usando el teorema de Radon-Nykodim puede desmostrarse que E[X|F ] existe y es unica
casi seguramente.
Proposicion 1 Sean X y Y variables aleatorias con esperanza finita, F una σ-algebra y c
una constante, entonces
1. E[X|F ] = E[X] si X es independiente a F
2. Si X ≥ 0⇒ E[X|F ] ≥ 0
3. E[cX + Y |F ] = cE[X|F ] + E[Y |F ]
4. Si X ≥ Y ⇒ E[X|F ] ≥ E[Y |F ]
5. E[E[X|F ]] = E[X]
6. Si X es F -medible ⇒ E[X|F ] = X c.s.
7. Si XY es integrable3 y X es F -medible ⇒ E[XY |F ] = XE[Y |F ]
8. Si F1 ⊂ F2 ⇒ E[E(X|F2)|F1] = E[X|F1]
2E[X] :=∫
ΩXdP
3Una v.a. X es integrable si E[|X|] <∞
169
Y como definimos la esperanza condicional dada una variable aleatoria, como las de la in-
troduccion, es decir, E[X|Y ]?
Definicion 2 Sea (Ω,A ,P) un espacio de probabilidad, X ∈ (Ω,A ,P), integrable, y sea
Y ∈ (Ω,A ,P) otra variable aleatoria. Se define la esperanza condicional de X dado Y, como
E [X|σ (Y )]
Mas ejemplos: Jaula con tres puertas
Un prisionero esta encarcelado en una jaula que tiene tres puertas.
• La puerta 1 lo lleva inmediatamente a la libertad.
• La puerta 2 lo conduce a un tunel que lo regresa a la misma jaula despues de un dıa de
trayecto.
• La puerta 3 lo lleva, tambien, a un tunel que lo regresa a la misma jaula despues de tres
dıas de trayecto.
• La probabilidad de escoger cualquiera de las puerta es la misma: p = 13.
• Suponemos que si regresa a la jaula, inicia el mismo proceso de nuevo como si hubiera
olvidado sus experiencias pasadas con la eleccion de las puertas. Entonces
¿Cual es el valor esperado del tiempo que tardara el prisionero, hasta que este
en libertad?
Sol.
Sea X la v.a. que determina el tiempo hasta que el prisionero consiga la libertad, y Y la
v.a. que determina el numero de la puerta elegida inicialmente. Observamos que
• E [X|Y = 1] = 0
• E [X|Y = 2] = 1 + E [X]
• E [X|Y = 3] = 3 + E [X]
170
Ahora, utilizando la propiedad 5 de la esperanza condicional, tenemos
E [X] = E [E [X|Y ]]
=1
3E [X|Y = 1] +
1
3E [X|Y = 3] +
1
3E [X|Y = 3]
=1
3(0 + 1 + E [X] + 3 + E [X])
=1
3(4 + 2E [X])
Por lo tanto: E [X] = 4 dıas
Ejemplo 2
Sean X1, X2, ..., Xn variables aleatorias i.i.d. con esperanza comun µ. Definimos la v.a.
Sn = X1 +X2 + · · ·+Xn
Para m < n tenemos
E [Sn|X1 +X2 + · · ·+Xm] = E [X1 +X2 + · · ·+Xm|X1 +X2 + · · ·+Xm] +
E [X1 +X2 + · · ·+Xm|Xm+1 +Xm+2 + · · ·+Xn]
= X1 +X2 + · · ·+Xm + E [Xm+1 +Xm+2 + · · ·+Xn]
= Sm + (n−m)µ
Definicion 3 Una filtracion es una coleccion de σ-algebras Fnn≥1 tal que Fm ⊆ Fn ∀
m ≤ n
En particular, la filtracion natural o canonica de un proceso Xn es aquella sucesion de
σ-algebras definidas por Fn = σX1, X2, ..., Xn
“Fn contiene la informacion del proceso Xii≥1 hasta el tiempo n ”
Definicion 4 Se dice que un proceso Xn es adaptado a la filtracion Fn si Xn es Fn-
medible
171
Definicion 5 Una variable aleatoria τ con valores en N ∪ ∞ es un tiempo de paro con
respecto a la filtracion Fnn≥1 si τ ≤ n ∈ Fn ∀ n ∈ N
Equivalentemente τ = n ∈ Fn
Que se interpreta como: La ocurrencia del evento “paramos el proceso al tiempo τ = n”,
puede determinarse conociendo solo los valores de X0, X1, ..., Xn, i.e., no se requiere conocer
los valores Xn+1, Xn+2, ....
Ejemplo
Supongamos que Xn es una cadena de Markov que representa nuestro capital en dolares,
despues de haber jugado n veces. Podemos pensar en ganar apostando en un casino, y parar
de apostar (jugar) cuando alcancemos una suma deseada, digamos, m dolares.
El tiempo aleatorio, τ , en el que por primera vez acumulamos m dolares es un tiempo de paro:
τ = n = X0 6= m,X1 6= m, ..., Xn−1 6= m,Xn = m
172
Martingalas
Definicion 6 Un proceso estocastico Xn es una Fn-martingala si
1. Xn es integrable ∀ n ≥ 1
2. Xn esta adaptado a Fn
3. E[Xn+1|Fn] = Xn ∀ n ≥ 1
Implicaciones:
1. E[Xm|Fn] = Xn ∀ m ≥ n
2. E[E(Xm|Fn)|Ω, ∅] = E[Xm|Ω, ∅] = E[Xm]
⇒ E[Xn] = E[Xm] ∀ m ≥ n
Definicion 7 Un proceso estocastico Xn es una Fn-submartingala si
1. Xn es integrable ∀ n ≥ 1
2. Xn esta adaptado a Fn
3. E[Xn+1|Fn] ≥ Xn ∀ n ≥ 1
Definicion 8 Un proceso estocastico Xn es una Fn-supermartingala si
1. Xn es integrable ∀ n ≥ 1
2. Xn esta adaptado a Fn
3. E[Xn+1|Fn] ≤ Xn ∀ n ≥ 1
La idea de un proceso martingala es la de aquel proceso que tiende estabilizarse en cierto
punto, a saber, su valor esperado, es decir, en promedio no crece ni decrece; en cambio una
submartingala muestra una tendencia de crecimiento; por su parte, una supermartingala
tiende a decrecer.
Ejemplos
Sean X0, X1, X2, ... variables aleatorias i.i.d. con esperanza comun µ, y
173
Mn =n∑i=0
Xi, una caminata aleatoria
ya que
E [Mn+1|M0,M1, ...,Mn] = E [Mn +Xn+1|M0,M1, ...,Mn]
= E [Mn|M0,M1, ...,Mn] + E [Xn+1|M0,M1, ...,Mn]
= Mn + E [Xn+1]
Entonces, Mn, n ≥ 0 es una Martingala si E [Xi] = 0; es una Supermartingala si E [Xi] < 0
y es una Submartingala si E [Xi] > 0.
Ejemplo 2
Sean X0, X1, X2, ... variables aleatorias i.i.d. con esperanza comun µ, y
Mn =n∏i=0
Xi
ya que
E [Mn+1|M0,M1, ...,Mn] = E [Mn ∗Xn+1|M0,M1, ...,Mn]
= MnE [Xn+1|M0,M1, ...,Mn]
= Mn ∗ E [Xn+1]
Entonces, Mn, n ≥ 0 es una Martingala si E [Xi] = 1; es una Supermartingala si E [Xi] < 1
y es una Submartingala si E [Xi] > 1.
Ejemplo 3
Sean X0, X1, X2, ... variables aleatorias i.i.d. con esperanza comun µ, y
Mn =1
µn
n∏i=0
Xi =1
µXn ∗Mn−1
174
Entonces, Mn, n ≥ 0 es una martingala.
Dado que
E [Mn+1|M0,M1, ...,Mn] = E[Mn ∗
Xn+1
µ|M0,M1, ...,Mn
]
=Mn
µ∗ E [Xn+1|M0,M1, ...,Mn]
=Mn
µ∗ E [Xn+1]
=Mn
µ∗ µ = Mn
Ejemplo 4 (Cocientes de verosimilitudes)
Suponga que X1, X2, ..., Xn son variables aleatorias iid con funcion de densidad comun, f,
que es cualquiera de dos diferentes densidades posibles, f0 o f1. Desde el punto de vista es-
tadıstico, deseamos elegir entre estas dos densidades aquella que genero los datos observados
x1, x2, ..., xn. Por lo tanto, planteamos el problema de contraste de hipotesis
H0 : f = f0 vs. Ha : f = f1
La decision estadıstica se basa, comunmente, en el cociente de verosimilitudes
Λn =n∏i=1
f1(xi)
f0 (xi)
Si Λn es grande, entonces los datos dan soporte a favor de la hipotesis alternativa, y contra
la hipotesis nula, por lo que la decision es rechazar esta ultima, y concluimos que la densidad
que genero los datos observados es f1. Supangamos ahora que la hipotesis nula es cierta, i.e.,
que los datos observados fueron generados por f0. Entonces
175
Ef0 [Λn+1|Λ1, ...,Λn] = Ef0[f1 (xn+1)
f0 (xn+1)Λn|Λ1, ...,Λn
]
= ΛnEf0[f1 (xn+1)
f0 (xn+1)|Λ1, ...,Λn
]
= ΛnEf0[f1 (xn+1)
f0 (xn+1)
](¿por que?)
= Λn
∫R
f1 (x)
f0 (x)f0(x)dx
= Λn × 1 = Λn
Por lo que la sucesion de cocientes de verosimilitudes es una martingala bajo la hipotesis
nula (en este caso, si la verdadera f que genero los datos es f0).
Proposicion 2 Un proceso estocastico Xn es una martingala sıi Xn es submartingala
y supermartingala
176
Teoremas de paro
Entre las razones por las cuales las martingalas son importantes, se encuentran los teoremas
de convergencia de martingalas, que bajo ciertas condiciones de acotamiento nos permiten
concluir la convergencia casi segura (o de otro tipo) de una martingala. Para abordar este
resultado, es importante extender la igualdad E (Xn) = E (X0) para abarcar no solo a tiempos
deterministas como n, sino tambien a ciertos tiempos aleatorios. Entonces, nuestro objetivo
es observar a la martingala a un tiempo que a su vez es una variable aleatoria. En realidad,
trabajaremos con una clase mas reducida de tiempos aleatorios, a saber, los tiempos de paro.
Recuperemos nuestra definicion de tiempo de paro.
Definicion 9 Una variable aleatoria τ con valores en N ∪ ∞ es un tiempo de paro con
respecto a la filtracion Fnn≥1 si τ ≤ n ∈ Fn ∀ n ∈ N
Equivalentemente τ = n ∈ Fn
Que mencionamos se interpreta como: La ocurrencia del evento “paramos el proceso al
tiempo τ = n”, puede determinarse conociendo solo los valores de X0, X1, ..., Xn, i.e., no se
requiere conocer los valores Xn+1, Xn+2, ....
Teorema 1 Teorema de Paro Opcional (TPO)
Sea Xn una Fn-martingala y τ un Fn-tiempo de paro acotado
⇒ E[Xτ ] = E[Xn] ∀ n ≥ 1
177
Demostracion. Como τ es acotado entonces ∃ n0 ∈ N tal que τ ≤ n0 por lo que
E [Xτ ] = E
[n0∑n=1
1τ=nXn
]
=
n0∑n=1
E[1τ=nXn
]
=
n0∑n=1
E[E(Xn0|Fn)1τ=n
]ya que Xn es martingala
=
n0∑n=1
E[E(1τ=nXn0|Fn)
]pues 1τ=n es Fn −medible
=
n0∑n=1
E[Xn01τ=n
]= E [Xn0 ]
Teorema 2 Teorema de Paro Opcional (TPO1)
Sea Xn una martingala y τ un tiempo de paro finito casi seguramente tal que
1. E [|Xτ |] <∞
2. limn→∞E[Xn1τ>n
]= 0
⇒ E [Xτ ] = E [Xn] ∀ n ≥ 1
Demostracion. Definamos τn = minτ, n ≤ n tiempo de paro, entonces por el TPO
tenemos
E[Xτn ] = E[X1]
⇒ E[X1] = limn→∞
E[Xτn ]
= limn→∞
(E[Xτn1τ≤n] + E[Xτn1τ>n])
pero Xτn = Xτ + (Xn −Xτ )1τ>n, entonces
E[X1] = limn→∞
(E[Xτ1τ≤n] + E[Xn1τ>n])
= limn→∞
E[Xτ1τ≤n]
178
Ahora, notese que |Xτ1τ≤n| ≤ |Xτ | ∀n⇒ E[|Xτ1τ≤n|] ≤ E[|Xτ |] <∞
ademas, por ser τ <∞ casi seguramente, se tiene que limn→∞Xτ1τ≤n = Xτ , entonces por
el teo. de convergencia dominada limn→∞E[Xτ1τ≤n] = E[Xτ ]
⇒ E[Xτ ] = E[Xn] ∀ n ≥ 1
Teorema 3 Teorema de Paro Opcional (TPO2).
Sea Xn una martingala y τ un tiempo de paro tales que
1. E[τ ] <∞
2. E[|Xn+1 −Xn||Fn] ≤ c para alguna c ∈ R
⇒ E[Xτ ] = E[Xn] ∀ n ≥ 1
Demostracion. Definamos Z1 = |X1| , Zn+1 = |Xn+1 −Xn| ∀ n ≥ 1
Notese que Xτ = X1 + (X2 −X1) + (X3 −X2) + ...+ (Xτ −Xτ−1)
⇒ |Xτ | ≤ W :=τ∑k=1
Zk =∞∑k=1
Zk1τ≥k
Ademas,
E[W ] = E[|X1|] +∞∑k=2
E[Zk1τ≥k]
= E[|X1|] +∞∑k=2
E[E(Zk1τ≥k|Fk−1)]
Observe que si A ∈ F ⇒ 1A es F -medible
179
Como τ ≤ k − 1 ∈ Fk−1 ⇒ τ > k − 1 = τ ≥ k ∈ Fk−1, entonces
E[W ] = E[|X1|] +∞∑k=2
E[1τ≥kE(Zk|Fk−1)]
≤ E[|X1|] +∞∑k=2
cP(τ ≥ k)
≤ E[|X1|] + c∞∑k=0
P(τ ≥ k)− 2c
= E[|X1|] + c
(∞∑k=0
P(τ = k) + P(τ > k)
)− 2c
= E[|X1|] + c(1 + E[τ ])− 2c <∞
∴ E[|Xτ |] ≤ E[W ] <∞ ...(∗)
Ahora para k ∈ N fijo tenemos
E[Xk1τ>k] ≤ |E[Xk1τ>k]|
≤ E[|Xk|1τ>k] por la desigualdad de Jensen
≤ E[|Xk|1τ≥k]
≤ E[W1τ≥k] −→ 0 cuando k →∞ ...(?)
Ası, (∗) y (?) permiten utilizar el TPO1, y finalmente E[Xτ ] = E[Xn] ∀ n
Teorema 4 Teorema de Wald.
Consideremos la caminata aletoria Snn∈N, Sn =∑n
k=1XK , donde Xk son variables
aleatorias independientes e identicamente distribuidas tales que E[|Xk|] <∞ ∀k. Sea Fn =
σX1, ..., Xn. Si τ es un Fn-tiempo de paro tal que E[τ ] <∞
⇒ E[Sτ ] = E[τ ]E[X]
Demostracion. Considere el proceso Ynn∈N dado por Yn = Sn − nE[X].
Se puede demostrar facilmente que Yn es una Fn-martingala.
180
Observese que
E[ |Yn+1 − Yn| |Fn] = E[ |Xn+1 − E[X]| |Fn]
≤ E[ |Xn+1| |Fn] + E[E[ |X|] |Fn]
≤ E[ |X| ] + E[ |X| ]
= 2E[ |X| ] <∞
Entonces por el TPO2 tenemos que
E[Yτ ] = E[Y1] = E[ S1 − E[X] ] = E[X]− E[X] = 0
Por otro lado,
E[Yτ ] = E[ Sτ − τE[X] ] = E[Sτ ]− E[τ ]E[X]
∴ E[Sτ ] = E[τ ]E[X]
181
Procesos asociados a la teorıa de ruina
• Hasta aquı hemos visto al modelo de perdidas agregadas
S =N∑i=1
Xi
durante un periodo fijo de tiempo, e.g., un ano.
• Ahora haremos la extension para tratarlo como dependiente del tiempo. Es decir
S(t) =
N(t)∑i=1
Xi
donde N(t) denota el numero de reclamaciones que ocurren antes del tiempo, t.
Utilizaremos este modelo dependiente del tiempo para describir el flujo de dinero de una
aseguradora, y determinar caracterısticas de la probabilidad de ruina, tanto a corto como a
largo plazo.
Notacion
Denotaremos por
• N(t): El numero aleatorio de reclamaciones generadas por un portafolio en el intervalo de
tiempo [0, t], ∀t ≥ 0.
• Xi: el momto de la i-esima reclamacion, i=1,2,3,....
• S(t): El monto de las reclamaciones agregadas en el intervalo [0, t], ∀t ≥ 0.
Entonces
• Xi∞i=1 es una sucesion de variables aleatorias.
• N(t)t≥0 es un proceso estocastico
182
• S(t)t≥0 es un proceso estocastico
Es obvio que
S(t) =
N(t)∑i=1
Xi
con S(t) = 0 si N(t) = 0.
• Al proceso estocastico S(t)t≥0 definido anteriormente, se le conoce como el proceso de
perdidas agregadas generadas por el riesgo cubierto.
• La aseguradora recibe de sus asegurados, el pago de primas correspondientes a la covertura
del portafolio.
• Supondremos que estos pagos se reciben a una tasa constante de forma continua. Sea c > 0
esta tasa de pagos por unidad de tiempo. Ya que el total de primas se recibe en el intervalo
de tiempo [0, t], entonces, este total es ct.
• Supongamos que al tiempo, t = 0, la aseguradora tiene un capital inicial respecto al
portafolio. Este cantidad inicial de dinero es el capital inicial y lo denotaremos como U.
Asumiremos que U ≥ 0.
• La aseguradora necesita este capital inicial, porque el ingreso futuro por primas, podrıa no
ser suficiente para cubrir las reclamaciones futuras.
• El capital de la aseguradora a cualquier tiempo, t > 0, es una variable aleatoria, ya que
su valor depende de las reclamaciones que se realicen hasta este tiempo. Denotaremos este
capital por U(t)
• Entonces, podemos escribir
U(t) = U + ct−N(t)∑i=1
Xi, o
U(t) = U + ct− S(t)
183
con U(0) = U .
• Notese que el capital inicial y el monto total de las primas, no son variables aleatorias, ya
que se determinan antes de que el proceso de riesgo inicie.
• Para un valor dado de t, U(t) es una variable aleatoria, ya que S(t) lo es.
• El proceso estocastico
U(t)t≥0
se conoce como el proceso de flujo de dinero o proceso de capital.
La probabilidad de ruina a tiempo continuo
• De manera vaga, cuando el capital es negativo, la aseguradora ha perdido todo su dinero
y se dice que esta en ruina o arruinada.
• Nuevamente de forma vaga, la ruina puede ocurrir cuando la aseguradora se declara insol-
vente, no obstante, determinar si una companıa de seguros es insolvente es, en la practica,
una cuestion muy compleja.
• Otra manera de ver esta probabilidad de ruina, es pensarla como la posibilidad de que,
en algun tiempo futuro, la companıa aseguradora requiera prover mas capital para financiar
este particular portafolio.
Probabilidades de ruina
• Definimos las siguientes dos probabilidades
Ψ (U) = P [U(t) < 0, 0 < t <∞] y
Ψ (U, t) = P [U(τ) < 0, 0 < τ < t]
• Ψ (U) se le conoce como la probabilidad de ruina eventual (horizonte infinito), dado el
capital inicial, U. Se denota como funcion de U, para hacer enfasis de que dicha probabilidad
depende, entre otros parametros, del capital inicial del que se disponga.
184
• Ψ (U, t) es la probabilidad de ruina antes del tiempo, t (horizonte finito), dado el capital
inicial, U.
Algunas relaciones simples y logicas
Enunciamos algunas importantes relaciones logicas entre estas dos probabilidades. Sean
0 < t1 < t2 <∞ y U1 < U2, entonces
1. Ψ (U2, t) ≤ Ψ (U1, t)
Ψ (U2) ≤ Ψ (U1)
Es decir, a un capital inicial mayor, es menos creible que la ruina ocurra ya sea en
horizonte finito o infinito.
2. Ψ (U, t1) ≤ Ψ (U, t2) ≤ Ψ (U)
Dado un capital inicial, al prolongar el periodo de tiempo para observar la ruina, es
mas creible que esta ocurra.
3. limt→∞
Ψ (U, t) = Ψ (U)
La probabilidad de ruina a horizonte infinito, puede ser aproximada (es similar) a la
probabilidad de ruina a horizonte finito, si t es suficientemente grande.
4. limU→∞
Ψ (U, t) = 0
Cuando el capital inicial crece, la ruina es cada vez menos creible.
Probabilidades de ruina en tiempo discreto
• Las probabilidades de ruina anteriores, son probabilidades de ruina a tiempo continuo, lla-
madas ası porque hay un seguimiento continuo de la posibilidad de ruina de la aseguradora.
• En la practica puede ser posible, y aun deseable, hacer el seguimiento de ruina solo a
intervalos discretos de tiempo.
185
• Supongamos que los intervalos son de longitud h. Entonces, definimos las siguientes prob-
abilidades de ruina a tiempo discreto
Ψh (U) = P [U(t) < 0, t = h, 2h, 3h, ...], y
Ψh (U, t) = P [U(τ) < 0, τ = h, 2h, 3h, ..., t− h, t]
Notese que se supone, por conveniencia en la definicion de Ψh (U, t), que t es un entero
multiplo de h.
186
El modelo clasico de Camer-Lundberg
El modelo de Cramer-Lundberg, tiene sus orıgenes en la tesis doctoral de Filip Lundberg
que defendio en el ano de 1903. En este trabajo, Lundberg analiza el reaseguro de riesgos
colectivos y presenta el proceso de Poisson compuesto. Lundberg utilizo terminos un tanto
distintos a los actuales pues en aquellos anos aun no se habıa formalizado la teorıa de los
procesos estocasticos como la entendemos actualmente. En 1930, Harald Cramer retoma
las ideas originales de Lundberg, y las pone en el contexto de los procesos estocasticos, en
ese entonces, de reciente creacion. El modelo se ha estudiado de manera extensa, y se han
propuesto varias formas de generalizarlo y analizado.
Este modelo clasico de riesgo para la actividad de una companıa de seguros, es el proceso
estocastico a tiempo continuo U(t), t ≥ 0, definido por
U(t) = U + ct−N(t)∑t=1
Xi, t ≥ 0
con U el capital inicial de la companıa aseguradora, ct es el ingreso por primas hasta
el tiempo, t, con c una constante positiva; Xi es el monto de la i-esima reclamacion, y
N(t), t ≥ 0 un proceso Poisson de parametro, λ.
La variable U(t) representa el balance mas simple de ingresos menos egresos de una companıa
aseguradora. Al proceso, U(t), t ≥ 0, se le llama proceso de riesgo (risk process), o pro-
ceso de superavit (surplus process), y tiene trayectorias como se muestra en la siguiente figura
187
2 4 6 8 10
−20
020
4060
Trayectoria del proceso de ruina
tiempo
U(t
)
τ
Algunas caracterısticas del proceso de riesgo
• Las trayectorias del proceso empiezan siempre en U el capital inicial.
• Las variables aleatorias Xi, i = 1, 2, ... son i.i.d., con funcion generadora de momentos
MX(t), E (X) = µ1 = µ y E (X2) = µ2
• E [U(t)], es
E [U(t)] = E
U + ct−N(t)∑t=1
Xi
= U + ct− E [N(t)]E (Xi)
=︸︷︷︸∗
U + ct− λtµ = U + (c− λµ) t
* ya que
N(t)∑t=1
Xi es un Poisson compuesto, con intensidad λt.
188
• V [U(t)] = λµ2t Por el mismo argumento anterior.
La “trayectoria promedio” de este proceso de riesgo es la lınea recta que inicia en U > 0 y
tiene pendiente c− λµ, que es positiva por la condicion o hipotesis de ganancia neta (enun-
ciada posteriormente). La variable aleatoria U(t) puede interpretarse como el capital de
la companıa aseguradora al tiempo, t, y por razones naturales y legales es importante que
U(t) este por arriba de cierto nivel mınimo. Supongamos que tal nivel mınimo es a, con
0 < a < U . Ajustando el capital inicial, U, esto es, suponiendo un nuevo capital inicial de
magnitud U−a, se puede suponer, sin perdida de generalidad, que este nivel mınimo es cero,
y ası lo haremos en nuestro analisis. De esta forma cuando U(t) ≤ 0 para algun t > 0 se dice
que hay ruina. La ruina casi nunca sucede en la practica, es solamente un termino tecnico
que produce alguna toma de decision. Por ejemplo, si el capital de una companıa aseguradora
asignado a una cartera decrece en forma significativa, automaticamente la aseguradora puede
tomar ciertas medidas para subsanar esta situacion y no se trata de un evento insalvable.
Por otro lado es natural suponer que la companıa aseguradora posea varios portafolios de
modo que ruina en uno de ellos no significa necesariamente bancarrota que el termino ruina
podrıa sugerir.
La condicion de ganancia neta
Sean T0, T1, T2, ... los tiempos aleatorios en donde la aseguradora recibe las reclamaciones.
Supondremos T0 = 0. Para cada entero k ≥ 1 definamos la variable aleatoria Yk =
c (Tk − Tk−1) − Xk, que pueden interpretarse como el balance de la companıa aseguradora
entre dos siniestros sucesivos. La esperanza de esta variable es
E (Yk) = cE (Tk − Tk−1)− E (Xk) = c
(1
λ
)− µ
Se puede demostrar que la ruina ocurre casi seguramente si, y solo si, E (Yk) ≤ 0. Como no
deseamos que la ruina ocurra, debemos suponer que E (Yk) > 0, es decir, supondremos que
se tiene la condicion de ganancia neta
c > λµ
Que interpretamos de la siguiente forma: en promedio, la entrada por primas por unidad de
189
tiempo, c, es mayor que el total de reclamaciones por unidad de tiempo, λµ.
190
Probabilidades de ruina con el modelo Carmer-Lundberg
Nos interesa calcular o estimar la probabilidad de una eventual ruina (horizonte infinito) en
el modelo de Cramer-Lundberg.
Definamos el tiempo de ruina, τ , como el primer momento en que la ruina se presenta, es deir
τ = inf t > 0 : U(t) ≤ 0
y se define inf∅ =∞. Por lo que τ es una variable aleatoria que toma valores en el intervalo
(0,∞]. Recordemos que, dado un valor, t > 0 fijo, habıamos definido la probabilidad de
ruina en el intervalo (0, t], llamada probabilidad de ruina a horizonte finito, como
Ψ (U, t) = P (τ ≤ t|U(0) = U)
Y esta misma probabilidad de ruina a horizonte infinito, como
Ψ (U) = P (τ <∞|U(0) = U)
Probabilidad de ruina a horizonte infinito
Ahora presentaremos tres resultados generales sobre la probabilidad de ruina con horizonte
infinito. Denotaremos como F (y) a la funcion de distribucion de cualquiera de las reclama-
ciones, Y, y funcion de supervivencia como F (y) = 1−F (y). La correspondiente funcion de
densidad sera denotada por f(y), siempre que exista.
Proposicion. Sea Ψ (U) = 1 − Ψ (U). Supongamos que la distribiucion de cualquier recla-
macion en el modelo de Cramer-Lundberg es absolutamente continua, con funcion de densi-
dad f(y). Entonces
1.-d
dUΨ (U) =
λ
c
[Ψ (U)−
∫ U
0
Ψ (U − y) f(y)dy
]
2.- Ψ (0) =λµ
c
191
3.- Ψ (U) =λ
c
[∫ ∞U
F (y) +
∫ U
0
Ψ (U − y) F (y)dy
]
Dem.
Demostracion. Para hacer la demostracion del punto 1, condicionaremos al monto de la
primera reclamacion Y1 y el momento T1 en el que ella ocurre. Usaremos ademas el hecho
de que T1 tiene distribucion exp(λ), ya que es el tiempo que ocurre antes de la primer recla-
macion, que, en este modelo de Cramer-Lundberg, tiene distribucion Poisson. Entonces
Ψ (U) = P (No ruina en (0,∞)|U(0) = U)
=
∫ ∞0
∫ ∞0
P (No ruina en (0,∞)|U(0) = U, Y1 = y, T1 = t) f(y)fT1(t)dydt
=︸︷︷︸∗
∫ ∞0
∫ U+ct
0
P (No ruina en (0,∞)|U(0) = U, Y1 = y, T1 = t) f(y)fT1(t)dydt
=
∫ ∞0
λe−λt∫ U+ct
0
P (No ruina en (0,∞)|U(0) = U, Y1 = y, T1 = t) f(y)dydt
=︸︷︷︸∗∗
∫ ∞0
λe−λt∫ U+ct
0
Ψ (U + ct− y) f(y)dydt
* Ya que si no hay ruina para Y = Y1, entonces Ψ(U) ≥ 0⇒ U + ct−Y1 ≥ 0⇒ Y1 ≤ U + ct
** Ya que, por el punto * este es un valor de U para el que la ruina no se presenta, por lo
tanto, lo que se presenta es el complemento de Ψ(U), es decir, Ψ (U). Si hacemos el cambio
de variable: s = U + ct, que implica t = (s− U) /c y ds = cdt, tenemos que
Ψ (U) =λ
ceλU/c
∫ ∞U
e−λs/c∫ s
0
Ψ (s− y) f(y)dyds
Derivando esta expresion respecto a U, utilizando el teorema fundamental del calculo, obten-
emos la relacion deseada.
192
Para derivar el segundo inciso, integramos en el intervalo [0, U ], la expresion en 1. Y obten-
emos
∫ U
0
d
dsΨ (s) = Ψ (U)− Ψ (0) =
λ
c
[∫ U
0
Ψ (x)−∫ U
0
∫ x
0
Ψ (x− y) dF (y)dx
]
=λ
c
[∫ U
0
Ψ (x)−∫ U
0
∫ U
y
Ψ (x− y) dxdF (y)
](x− y > 0⇒ x > y)
=︸︷︷︸∗
λ
c
[∫ U
0
Ψ (x)−∫ U
0
∫ U−y
0
Ψ (x) dxdF (y)
]
=λ
c
[∫ U
0
Ψ (x)−∫ U
0
∫ U−x
0
Ψ (x) dF (y)dx
]
=λ
c
[∫ U
0
Ψ (x)−∫ U
0
Ψ (x)F (y)∣∣∣U−x0
dx
=λ
c
∫ U
0
Ψ (x) [1− F (U − x)] dx
=λ
c
∫ U
0
Ψ (x) F (U − x)dx
=λ
c
∫ U
0
Ψ (U − x) F (x)dx · · · (1)
=λ
c
∫ U
0
Ψ (U − x) F (x)1[0,U ](x)dx
* Ya que si x=y, entonces, el lımite inferior de la integral es cero y si x=U, el lımite superior
es u-y.
Ahora, solo resta tomar lımite cuando U →∞. En el lado derecho de la igualdad tenemos
limU→∞
(Ψ (U)− Ψ (0)
)= 1− Ψ (0) (Ya que si U →∞ entonces la ruina ocurre con probabili-
dad uno). En el lado izquierdo ocurre que Ψ (U − x) es una funcion monotona creciente que
converge a uno, entonces, esta integral converge a la integral
∫ ∞0
F (x)dx =
∫ ∞0
[1− F (x)] dx
193
Y recordando que
E (X) =
∫ ∞0
F (x)dx =
∫ ∞0
[1− F (x)] dx = µ
Finalmente tenemos que
1− Ψ (0) =λµ
c
por lo que
Ψ (0) = 1− Ψ (0) =λµ
c· · · (2)
Para probar el ultimo inciso, usaremos los resultados (1) y (2), de la siguiente forma
Primero tenemos que
λ
c
∫ U
0
Ψ (U − x) F (x)dx =︸︷︷︸1
Ψ (U)− Ψ (0)
= 1−Ψ (U)− Ψ (0)
=︸︷︷︸2
λµ
c−Ψ (U)
Entonces
194
Ψ (U) =λ
c
[µ−
∫ U
0
Ψ (U − x) F (x)dx
]
=λ
c
[µ−
∫ U
0
(1−Ψ (U − x)) F (x)dx
]
=λ
c
[µ−
∫ U
0
F (x)dx+
∫ U
0
Ψ (U − x) F (x)dx
]
=λ
c
[∫ ∞0
F (x)dx−∫ U
0
F (x)dx+
∫ U
0
Ψ (U − x) F (x)dx
]
=λ
c
[∫ ∞U
F (x)dx+
∫ U
0
Ψ (U − x) F (x)dx
]
Observese que la ultima expresion corresponde a una forma recursiva para encontrar la
probabilidad de ruina. En general no es facil resolver este tipo de ecuaciones, de modo que
unicamente nos limitaremos a encontrar algunas estimaciones de las mismas. Sin embargo,
cuando las reclamaciones tienen distribucion exponencial el sistema es soluble como se mues-
tra a continuacion.
Ejercicio. Encontraremos la probabilidad de ruina, en el modelo de Camer-Lundberg, cuando
las reclamaciones son exponenciales (α).
En este caso, sabemos que E (X) =1
α. Entonces, la probabilidad de no ruina es
Ψ′(u) =
λ
c
[Ψ (u)− e−λu
∫ u
0
Ψ(y)αeαydy
]
Entonces, derivando esta expresion obtenemos la ecuacion diferencial
Ψ′′
(u) =
(λ
c− α
)Ψ′(u)
cuya solucion es
Ψ (u) = a+ be−(α−λ/c)u
195
Utilizando las condiciones iniciales Ψ (0) =λ
αc(observemos aquı que la media de la expo-
nencial es 1α
, no µ como la habıamos denotado antes) y Ψ (∞) = 0 (recordar que si el capital
inicial U es infinito, la ruina jamas se presenta). Estas dos condiciones iniciales generan el
sistema de ecuaciones
λ
αc= a+ b
0 = a
que tiene la solucion: a = 0 y b = λαc
. Por lo que la solucion queda como
Ψ (u) =λ
αce−(α−λ/c)u
cuya grafica se encuentra en la siguiente figura. Observe que debido a la condicion de ganan-
cia neta, el exponente −(α− λ
c
)es negativo, y por lo tanto la probabilidad de ruina decae
a cero exponencialmente cuando el capital inicial, U, crece a infinito.
196
0.0 0.2 0.4 0.6 0.8 1.0
02
46
810
Gráfica probabilidad de ruina exponencial
u
λ cα
Ψ(u)
197
Coeficiente de ajuste
Una aproximacion para la probabilidad de ruina bajo el estudio de un horizonte infinito, es
la que proporciona el coeficiente de ajuste de Lundberg. Se trata de un instrumento util para
conseguir lımites para la probabilidad de ruina. Para eso es preciso definir previamente el
Coeficiente de Ajuste. Definamos primero la funcion
θ(r) = λ (MY (r)− 1)− cr
con MY (r) la funcion generadora de momentos de Y . Por supuesto, esta funcion esta definida
para los valores de r en donde MY (r) existe. Entonces, suponiendo que esta funcion es difer-
enciable, tenemos que
• θ′(r) = λM′Y (r)− c
• θ′′(r) = λM′′Y (r) = λE
(Y 2erY
)> 0
Por lo tanto, es una funcion estrictamente convexa, con θ(0) = 0. Y por la condicion de
ganancia neta, (c > λµ), se tiene que
θ′(0) = λMY (0) − c = λµ − c < 0. Entonces, es posible que exista un valor R > 0 tal que
θ(R) = 0. Observese la siguiente figura
198
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−2
02
46
Gráfica coeficiente de ajuste
r
θ(r)
199
Def. A la posible solucion, R > 0, de la siguiente ecuacion se le llama coeficiente de ajuste,
o exponente de Lundberg.
θ(R) = λ (MY (R)− 1)− cr = 0
Observese que la existencia del coeficiente de ajuste depende totalmente de la distribucion
de las reclamaciones. Aquellas distribuciones para las que el coeficiente de ajuste existe se
les llama distribuciones con colas ligeras, y la razon de ello es que la funcion de densidad
decae a cero exponencialmente, asignando probabilidades pequenas a reclamaciones grandes.
Este hecho significa que la distribucion tiene momentos finitos, y MY existe. Por ejemplo,
demostraremos a continuacion que en el caso de reclamaciones exponenciales (distribucion
con colas ligeras), el coeficiente de ajuste existe y es facil calcularlo.
Ejemplo. Montos de reclamacion con distribucion exponencial. Supongamos que
Yi ∼ Exp (α), con funcion generadora de momentos dada por MY (r) =α
α− r, r < α. En-
tonces
θ(r) = λ (MY (r)− 1)− cr
= λ
(α
α− r− 1
)− cr
= λ
(r
α− r
)− cr
=
(λ
α− r− c)r
Por lo que θ(r) = 0⇒ r = 0, oλ
α− r− c = 0. Esta segunda ecuacion implica
R = r = α− λ
c
Mas aun, recordando el resultado que obtuvimos al calcular la probabilidad de ruina cuando
los montos de reclamacion eran exponenciales, esta probabilidad de ruina puede escribirse
de la siguiente forma
200
Ψ (u) =λ
αce−(α−λ/c)u =
λ
αce−Ru ≤ e−Ru
La desigualdad es consecuencia de la condicion de ganancia neta.
c > λµ, en este caso c > λ1
α⇒ cα > λ y
λ
cα< 1
Este tipo de cota superior para la probabilidad de ruina (llamada desigualdad de Lundberg)
la demostremos mas adelante, para cualquier distribucion de las reclamaciones para la que
el coeficiente de ajuste exista.
“Ostro” ejemplo (Reclamaciones con distribucion gamma). Supongamos que las reclama-
ciones se distribuyen gamma(γ, α) con γ = 2. Con funcion generadora de momentos
MY (r) =
(α
α− r
)γ, r < α
Por lo que
θ(r) = λ
[(α
α− r
)γ− 1
]− cr
El requerimiento θ(r) = 0, genera la ecuacion cuadratica
cr2 + r (λ− 2αc) + (cα2 − 2αλ) = 0
cuyas raıces, son
r =2αc− λ±
√λ2 + 4αcλ
2c
El caso con raız cuadrada positiva no es valido pues resulta r > α. En efecto, utilizando la
condicion de ganancia neta, c >2λ
α, tenemos
201
2αc− λ+√λ2 + 4αcλ
2c≥ 2αc− λ+
√λ2 + 8λ2
2c
= α +λ
c
> α
por lo que la raız con el signo negativo es el coeficiente de ajuste.
Ejemplo (Reclamaciones con distribucion gamma) En el ejemplo anterior, el hecho de asig-
narle al parametro γ de la distribucion gamma, el valor dos, fue premeditado para obtener
una ecuacion de segundo grado, si asignamos el valor de γ = 3, obtenemos la ecuacion cubica
f(r) = λ(α3 − (α− r)3
)− cr (α− r)3 = 0
La raız, r, que buscamos es tal que por condiciones de existencia de la funcion generadora
de momentos debe satisfacer 0 < r < α. Para ilustrar el calculo con R de la solucion de esta
ecuacion, tomaremos α = 3, λ = 1 y c=2. Estos valores aseguran que se cumple la condicion
de ganancia neta: c >3λ
α.
202
0 1 2 3 4 5
−20
020
4060
8010
0Gráfica coeficiente de ajuste gamma
r
θ(r)
R
f < −function(x)(9− (3− x)3)− 2 ∗ x ∗ (3− x)3
uniroot(f, c(0, 10))
root [1]1.737766
f.root [1]− 0.000450224
iter [1]10
estim.prec [1]6.103516e− 05
El siguiente resultado proporciona una forma equivalente de definir el coeficiente de ajuste,
permite, ademas, comprobar su existencia a traves de la determinacion del caracter finito de
una integral, y posibilita dar una interpretacion de aquellas distribuciones de probabilidad
para las cuales el coeficiente de ajuste existe.
Proposicion. La ecuacion θ(r) = λ (MX(r)− 1)− cr = 0 tiene una posible solucion r > 0 si,
y solo si, se cumple la identidad
203
∫ ∞0
erxF (x)dx =c
λ
con F = 1− F (x), y F (x), la funcion de distribucion de los montos de reclamacion.
Dem
Recordemos que la funcion generadora de momentos de una v.a. X, se define como
MX(r) =
∫ ∞0
erxf(x)dx =
∫ ∞0
erxdF (x)dx = −∫ ∞0
erxdF (x)dx
Integrando por partes la ultima expresion en la funcion generadora de momentos
Sea u = erx ⇒ du = rerxdx y dv = dF (x)⇒ V = F (x). Por lo que
∫ ∞0
erxdF (x)dx = −[erxF (x)
∣∣∣∞0−∫ ∞0
rerxF (x)dx
]
Ya que por hipotesis la funcion generadora de momentos existe, entonces erxF (x)∣∣∣∞ = 0 y
erxF (x)∣∣∣0
= 1 (esto implica que el decaimiento en las colas de la distribucion de F(x), es
mayor al crecimiento de erx). Entonces
∫ ∞0
erxdF (x)dx = −[−1−
∫ ∞0
rerxF (x)dx
]
Por lo tanto
∫ ∞0
erxdF (x)dx = 1 +
∫ ∞0
rerxF (x)dx
Ahora, ya que
204
0 = θ(r)
= λ (MX(r)− 1)− cr
= λ
(∫ ∞0
erxdF (x)dx− 1
)− cr
= λr
∫ ∞0
erxdF (x)dx− cr (despejando del resultado anterior)
Entonces, despejando esta ultima igualdad, tenemos
∫ ∞0
erxdF (x)dx =c
λ
Ejemplo Usaremos este criterio para demostrar que para la distribucion Weibull existe el
coeficiente de ajuste, si el parametro de forma, γ ≥ 1. En este caso tenemos que
• f(x, γ, λ) = λγ (λt)γ−1 e−(λt)γ
• F = e−(λt)γ
Entonces
∫ ∞0
erxdF (x)dx =
∫ ∞0
erxe−(λx)γ
dx
=
∫ ∞0
erx−(λx)γ
dx
Esta integral existe si rx− (λx)γ ≤ 0⇒ rx ≤ (λx)γ ⇒ x ≤ xγ ⇒ γ ≥ 1.
Ejemplo 2. Veamos que pasa con la distribucion Burr y este coeficiente. Esta variable tiene
funcion de distribucion dada por
F (x) = 1−(
k
k + xβ
)α, x ≥ 0, α > 0, β > 0
205
Por lo que F (x) =
(k
k + xβ
)α. Entonces
∫ ∞0
erxdF (x)dx =
∫ ∞0
erx(
k
k + xβ
)αdx
≈∫ ∞0
erxx−βαdx =∞
Por lo tanto la distribucion Burr es una distribucion con colas pesadas.
Comentamos en el desarrollo de este coeficiente de ajuste que, para que exista, la cola de la
distribucion, F , debe decaer a cero lo suficientemente rapido para anular el comportamiento
creciente del termino, erx dentro de la integral. En el ejemplo de la distribucion Burr, la cola
decae a cero en la forma, x−βα que resulta insuficiente para hacer que la integral sea finita.
Una distribucion con cola ligera asigna probabilidades muy pequenas a los valores grandes de
la variable aleatoria. Esto puede representar un inconveniente para modelar algunos riesgos
que pudieran registrar grandes montos en las reclamaciones.
Desigualdad de Lundberg
Vamos a demostrar ahora que para aquellas distribuciones para las cuales el coeficiente de
ajuste, R, existe, se cumple la desigualdad Ψ(u) < e−Ru. Para demostrar este resultado
haremos uso de la teorıa de martingalas.
Proposicion. Sea U(t) el proceso de riesgo, y sea θ(r) = λ (MX(r)− 1)− cr. Entonces, el
procesoe−rU(t)−θ(r)t : t ≥ 0
es una martingala.
Utilizaremos la definicion, equivalente a la que dimos antes, de martingala siguiente
Def. Un proceso Mt : t ≥ 0 que es adaptado e integrable es una martingala si para
0 ≤ s ≤ t, se cumple que
E (Mt|Fs) = Ms
con Fs una filtracion.
206
Dem. Que el proceso es adaptable es claro pues, implıcitamente, estamos usando la filtracion
natural, Ft = σ Xs : 0 ≤ s ≤ t.
Para demostrar que es integrable, consideremos los siguientes calculos
E(e−rU(t)−θ(r)t) = e−θ(r)tE
(e−r(u+ct−
∑N(t)j=1 Yj
))= e−θ(r)t−r(u+ct)E
(er∑N(t)j=1 Yj
)= e−θ(r)t−r(u+ct)MS(t)(r)
= e−θ(r)t−r(u+ct)eλt(MY (r)−1)
<︸︷︷︸∗
∞
* Ya que −θ(r)t = −λt (MY (r)− 1) + crt. Entonces, el exponente de la funcion exponencial
es
−λt (MY (r)− 1) + crt− ru− crt+ λt (MY (r)− 1) = −ru
Y para demostrar que se cumple la propiedad de martingala: E (Mt|Fs) = Ms. Para 0 ≤s < t
E(e−rU(t)−θ(r)t|Fs
)= e−θ(r)tE
(e−rU(t)|Fs
)= e−θ(r)tE
(e−r(U(t)−U(s))−rU(s)|Fs
)= e−θ(r)t−rU(s)E
(e−r(U(t)−U(s))|Fs
)= e−θ(r)t−rU(s)E
(e−r(c(t−s)−
∑N(t)j=N(s)+1
Yj)|Fs
)= e−θ(r)t−rU(s)−rc(t−s)E
(er∑N(t)j=N(s)+1
Yj |Fs
)= e−θ(r)t−rU(s)−rc(t−s)E
(er∑N(t−s)j=1 Yj |Fs
)= e−θ(r)t−rU(s)−rc(t−s)eλ(t−s)(MY (r)−1)
= e−rU(s)−θ(r)s
= Ms
207
En particular, si el coeficiente de ajuste existe, es decir, si θ(R) = 0, entonces el proceso,e−RU(t)
es una martingala. Este es el resultado clave para demostrar la siguiente cota
superior para la probabilidad de ruina.
Desigualdad de Lundberg. Suponga que el coeficiente de ajuste R existe. Entonces
Ψ(u) ≤ e−Ru
Dem. Sea τ el tiempo de paro correspondiente al tiempo (momento) de ruina. Como el
procesoe−RU(t)
es una martingala, se tiene que el proceso
e−RU(t∧τ) tambien es una
martingala, que inicia en e−Ru, ya que U(t) = u + ct −N(t)∑j=1
Yj ⇒ U(0) = u entonces el
proceso,e−RU(t∧τ), inicia en e−Ru. Por lo tanto
e−Ru = e−RU(0)
= E(e−RU(t∧τ)) (Porque e−RU(t∧τ), es matingala
)= E
(e−RU(t∧τ)|τ ≤ t
)P (τ ≤ t)
+E(e−RU(t∧τ)|τ > t
)P (τ > t)
≥ E(e−RU(t∧τ)|τ ≤ t
)P (τ ≤ t)
= E(e−RU(τ)|τ ≤ t
)P (τ ≤ t)
=
(∫e−RU(τ)1τ≤tdP
)P (τ ≤ t)
Si hacemos que t → ∞, entonces, el evento (τ ≤ t) tiende de manera monotona al evento
(τ <∞). Utilizando el teorema de convergencia monotona se obtiene entonces que
208
e−Ru ≥ E(e−RU(τ)|τ <∞
)P (τ <∞)
> E (1|τ <∞)P (τ <∞)
= P (τ <∞)
= Ψ(u)
por lo tanto, se tiene la desigualdad de Lundberg
Ψ(u) ≤ e−Ru
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
Desigualdad de Liundberg
u
Ψ(u
)
e−Ru
Ejemplo Supongamos que la distribucion de las reclamaciones es Exp(1) y que el tiempo
entre dos eventos Poisson se distribuye como Exp(2); ademas, la tasa constante de pago de
primas es c = 2.4 miles de pesos. Calcular el coeficiente de ajuste para este caso.
• Lo primero que hay que hacer es calcular R. Recordemos que para este caso
R = α− λ
c= 1− 2
2.4= 0.1666667
209
Por lo que la desigualdad de Lundber es
Ψ(u) ≤ e−0.1666667∗u
El calculo con R es
adjCoef(mgf.claim = mgfexp(x),mgf.wait = mgfexp(x, 2), premium.rate = 2.4, upper =
1)
[1]0.1666667
Uno mas complicado
adjCoef(mgf.claim = mgfgamma(x, 3, 3),mgf.wait = mgfexp(x, 1), premium.rate =
2, upper = 1)
[1]0.8404738
210
Cotas para el coeficiente de ajuste
Como hemos visto, el coeficiente de ajuste no siempre existe, y aun cuando conozcamos su
existencia no siempre es facil calcularlo. El siguiente resultado proporciona algunas cotas
para el valor de este coeficiente, suponiendo su existencia.
Proposicion Si el coeficiente de ajuste, R, existe, entonces
1
Mln
(c
λµ
)< R <
2 (c− λµ)
λµ2
Demostracion para la cota superior. Consideremos nuevamente la funcion θ(r) = λ (MX(r)− 1)−
cr, para r ≥ 0. Sabemos que θ(0) = 0. Derivando dos veces esta funcion tenemos
θ′(r) = λM
′Y (r)− c
θ′′(r) = λE
(Y 2erY
)> λE (Y 2) = λµ2
De donde tenemos que θ′(0) = λµ − c. Ademas, utilizando el teorema fundamental del
calculo, tenemos que
∫ r
0
θ′′(s)ds = θ
′(r)− θ′(0)
⇒ θ′(r) = θ
′(0) +
∫ r
0
θ′′(s)ds > λµ− c+
∫ r
0
λµ2dr = λµ− c+ λµ2r
Integrando ambos lados de la desigualdad, tenemos
θ(r) = θ(0) +
∫ t
0
θ′(s)ds > (λµ− c) t+ λµ2
r2
2
Evaluando esta desigualdad en la raız, R, obtenemos
0 > (λµ− c)R + λµ2R2
2=
[(λµ− c) + λµ2
R
2
]R
211
Ya que R > 0, entonces, para que la expresion en la derecha de la desigualdad sea negativa,
debe suceder que
(λµ− c) + λµ2R
2< 0⇒ R <
2 (c− λµ)
λµ2
Para la cota inferior tenemos
Supongamos Y ≤M c.s. y definamos la funcion
h(x) =x
M
(eRM − 1
)−(eRx − 1
)Entonces, tenemos que h
′′(x) = −R2eRx < 0. Por lo tanto, h, es concava, con h(0) = h(M) =
0, que implica que h(x) > 0 para x ∈ (0,M). Es decir
x
M
(eRM − 1
)−(eRx − 1
)> 0
equivalentemente
(eRx − 1
)<
x
M
(eRM − 1
)· · · (1)
Ahora, consideremos la funcion g(x) = xex− ex + 1. Entonces tenemos que g′(x) = xex > 0.
Por lo tanto, g(x) es creciente, y g(x) > g(0) = 0. Es decir g(x) = xex− ex + 1 > 0, si x > 0.
Si evaluamos esta funcion en x = RM > 0, tenemos g(x) = RMeRM−eRM+1 > 0. Por lo que
eRM − 1
RM< eRM
Por otro lado, y utilizando (1), tenemos
212
MY (R)− 1 =
∫ M
0
(eRx − 1
)dF (x)
≤︸︷︷︸(1)
∫ M
0
x
M
(eRM − 1
)dF (x)
=1
M
(eRM − 1
) ∫ M
0
xdF (x)
=µ
M
(eRM − 1
)· · · (2)
Ahora, utilizando (2) y despues (1), obtenemos
0 = λ (MY (R)− 1)− cR
≤︸︷︷︸(2)
λµ
M
(eRM − 1
)− cR
<︸︷︷︸(1)
λµReRM − cR
= λµ(λµeRM − c
)R
de donde tenemos que λµeRM − c > 0. Y finalmente
1
Mln
(c
λµ
)< R
Observese que la cota superior no requiere de hipotesis adicionales, de modo que cuando el co-
eficiente de ajuste, R, existe, este se encuentra siempre dentro del intervalo
(0,
2 (c− λµ)
λµ2
).
Observe tambien que cuando las reclamaciones estan acotadas superiormente por una con-
stante positiva, M, puede encontrarse una cota superior para la probabilidad de ruina sin
conocer, necesariamente, el coeficiente de ajuste pues
Ψ(u) < e−Ru <︸︷︷︸∗
e−uMln( c
λµ) = eln(λµc )
uM
=
(λµ
c
) uM
213
*Multiplicando la cota superior por -u.
214
Aproximaciones al modelo de Carmer-Lundberg
Aproximacion de De Vylder
Consideremos nuevamente el modelo de Cramer-Lundberg
U(t) = U + ct−N(t)∑j=1
Yj
donde las reclamaciones Yj tienen una distribucion desconocida. La aproximacion propuesta
por De Vylder consiste en aprovechar el hecho de que, para este modelo, el problema de
encontrar la probabilidad de ruina es completamente soluble cuando las reclamaciones son
exponenciales. De Vylder propone la siguiente reformulacion del modelo
U(t) = u+ ct−N(t)∑j=1
Yj
c una nueva tasa de ingreso por primas,N(t) : t ≥ 0
, un proceso Poisson de parametro
λ, y Yj variables aleatorias con distribucion exp(α). La idea es aproximar la probabilidad
de ruina del modelo original de riesgo, por medio de este modelo reformulado. Para ello se
deben encontrar los valores de los parametros, c, λ y α, en terminos de los parametros del
riesgo original, como lo mostramos en seguida.
Proposicion. La probabilidad de ruina del riesgo en el modelo de Carmer-Lundberg, puede
aproximarse por la formula
Ψ(u) ≈ λ
c αe−(α− λ
cu), con
α =3µ2
µ3
, λ =9
2
λµ32
µ23
, c = c− λµ+3
2
λµ22
µ3
Dem. El metodo consiste en igualar los tres primeros momentos de los procesos U(t) y U(t),
asumiendo que estos existen.
215
• Igualacion de las esperanzas. Es decir, hay que encontrar las condiciones bajo las que
E [U(t)] = E[U(t)
]. Entonces, tenemos que
E [U(t)] = U + ct− λµt = U + ct− λ 1
αt = E
[U(t)
]⇒ c = c− λµ+ λ
1
α
• Igualacion de varianzas (Igualacion de los segundos momentos). El siguiente paso es igualar
las varianzas. Recordemos que la varianza de un riesgo, S, que sigue un modelo de perdidas
agregadas Poisson(λ), esta dada por V (S) = λµ2. Entonces, igualando las varianzas de
estos dos procesos, tenemos
V [U(t)] = λµ2 = λ2
α2= V
[U(t)
]• Igualadad entre los terceros momentos. Finalmente, recordemos que el tercer momento cen-
tral de un riesgo, S, que sigue un modelo colectivo Poisson(λ), esta dado por E[(S − E(S))3
].
En este caso del modelo de perdidas, tenemos
E[(U(t)− E(U(t)))3
]= λµ3 = λ
6
α3= E
[(U(t)− E(U(t))
)3]
Solo resta igualar convenientemente estas ecuaciones para encontrar los parametros de in-
teres. De las igualdades de la varianza y tercer momento, se desprende que
1
2λµ2α
2 =1
6λµ3α
3
⇒ α =3µ2
µ3
Ahora, sustituyendo este valor en la ecuacion generada al igualar las varianzas, tenemos
λ =9
2
λµ32
µ23
216
Finalmente, sustituyendo estos dos valores en la igualdad entre las esperanzas, tenemos
c = c− λµ+3
2
λµ22
µ3
Entonces, hemos encontrado los valores de los parametros del modelo reformulado: λ, α, c,
en terminos de los del modelo original λ, c y de los momentos de la distribucion de las
reclamaciones, Y.
Formula de Pollaczec-Khinchin
La formula de Pollaczek-Khinchin es una expresion general que permite escribir a la proba-
bilidad de ruina en terminos de una serie infinita de convoluciones.
Proposicion (Formula de Pollaczec-Khinchin). La probabilidad de ruina en el modelo de
Cramer-Lundberg esta dada por
Ψ(u) = (1− p)∞∑n=1
pnH∗(n)(u)
con p =λµ
c, y H(x) =
1
µ
∫ x
0
F (y)dy, x ≥ 0
Con µ la esperanza de la distribucion asociada al monto de reclacion. Claramente es muy
difıcil de utilizar esta serie para calcular la probabilidad exacta de ruina, debido a su caracter
infinto. No obstante, se usa ampliamente para calcular aproximaciones de probabilidades de
ruina.
Dem
Primero veamos que la variable aleatoria 1 − Ψ(u) corresponde a la distribucion de una
variable geometrica compuesta con parametros
(1− p = 1− λµ
c,H∗
)(Recordemos que la
probabilidad de exito se toma como q=1-p). Efectivamente, sea
N ∼ Geo
(1− λµ
c
), y
217
X =n∑i=1
Yi
tales que Y1, Y2, ..., Yn son variables aleatorias independientes con distribucion H(y). En-
tonces
Ψ(x) = P (X ≤ x) =∞∑n=0
P (X ≤ x|N = n) (1− p)pn
=∞∑n=0
(1− p)pnH∗(n)
Entonces
1−Ψ(u) = =∞∑n=0
(1− p)pn(1−H∗(n)
)
=∞∑n=0
(1− p)pnH∗(n)
= (1− p)∞∑n=1
pnH∗(n)(u)
=
(1− λµ
c
) ∞∑n=1
(λµ
c
)nH∗(n)(u)
Para utilizar esta formula y obtener aproximaciones de las probabilidades de ruina, la com-
binaremos con el algoritmo de Panjer. En general no es facil calcular las convoluciones de la
funcion de distribucion, H(u), ni tampoco calcular la suma infinita en esta formula. No ob-
stante, pueden llevarse a cabo simulaciones de esta variable aleatoria, calcular la magnitud de
las colas y conocer de manera aproximada la probabilidad de ruina cuando las reclamaciones
tienen una distribucion continua arbitraria. Mostremos esta formula de Pollaczek-Khinchin
para reclamaciones exponenciales, y comparemosla con la formula exacta ya conocida para
218
este caso.
Entonces, supongamos que las reclamaciones tiene distribucion exponencial de parametro α.
Primero veamos que H(u) es nuevamente la funcion de distribucion de una exponencial (α).
H(u) =1
µ
∫ u
0
F (y)dy =11
α
∫ u
0
e−αydy
= α
(y − e−αy
α
) ∣∣∣∣u0
= α
[−e−αu
α+
1
α
]= 1− e−αu
Por lo tanto, H∗(n)(u) se distribuye gamma(n, α), y su distribucion es
H∗(n)(u) =∞∑k=n
e−αu(αu)k
k!
cuya funcion de supervivencia es
H∗(n))
(u) =n−1∑k=0
e−αu(αu)k
k!
Entonces tenemos que
219
∞∑n=1
pnH∗(n)
(u) =∞∑n=1
n−1∑k=0
pne−αu(αu)k
k!
=∞∑k=0
∞∑n=k+1
pne−αu(αu)k
k!
=∞∑k=0
e−αu(αu)k
k!
∞∑n=k+1
pn
=∞∑k=0
e−αu(αu)k
k!pk+1
∞∑n=0
pn
=p
1− p
∞∑k=0
e−αu(αpu)k
k!
=p
1− pe−αueαpu
=p
1− pe−α(1−p)u
continuando con este desarrollo, tenemos entonces que de acuedo a esta formula de Pollaczek-
Khinchin
ϕ(u) = (1− p)∞∑n=1
pnH∗(n)
(u)
= (1− p) p
1− pe−α(1−p)u
= pe−α(1−p)u
=λ
αce−(α−λc )u
que es el modelo de Cremer-Lundgber ya conocido para esta distribucion.
Ejemplo. Utilizaremos R para aproximar las probabilidades de ruina de algunos modelos.
Supongamos que las reclamaciones siguen una distribucion Pareto (5,4), la tasa de intensidad
Poisson es λ = 1 y tasa de primas por unidad de tiempo, c = 30. Ya que los momentos de
220
esta distribucion son de la forma
E(Xk)
=αθk
α− k
en este caso, se pueden implementar las dos aproximaciones que presentamos, ya que esta
distribucion tiene los tres primeros momentos finitos.
Aproximacion de De Vylder
Entonces, el primero, segundo y tercer momento de esta distribucion son
µ = E (X) =θ
α− 1; µ2 = E
(X2)
=2θ2
(α− 2)y µ3 = E
(X3)
=6θ3
(α− 3)
Por lo que los valores para nuestra aproximacion son
α =3µ2
µ3
=
3 ∗ 2θ2
(α− 2)
6θ3
(α− 3)
=(α− 3)
(α− 2) θ
λ =9
2
λµ32
µ23
=
9λ
2
8θ6
(α− 2)3
36θ6
(α− 3)3
= λ(α− 3)3
(α− 2)3
c = c− λµ+3
2
λµ22
µ3
= c− λ θ
(α− 1)+λ (α− 3) θ
(α− 2)2
Utilizando los valores particulares de este ejemplo, que son: α = 5, θ = 4, λ = 2 y c = 12,
tenemos
α = 0.16666667; λ = 0.5925926 y c = 11.7777778
y la aproximacion a la probabilidad de ruina queda como
Ψ(u) ≈ 0.5925926
0.1666667 ∗ 11.7777778e−0.1163522∗u = 0.3018867e−0.1163522∗u
221
0 20 40 60 80 100
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Aproximación de De Vylder
u
Ψ(u
)
Utilizando la aproximacion que se desprende de la formula de Pollaczec-Khinchin. Tenemos
F (x) = 1−(
4
4 + x
)5
⇒ H(x) =1
µ
∫ x
0
1−
(1−
(4
4 + z
)5)dz
= 1 ∗∫ x
0
(4
4 + z
)5
dz
= 1−(
4
4 + x
)4
Es decir, H ∼ Pareto (4, 4). Ademas, tenemos que la “probabilidad de exito” de la geometrica
asociada es
1− λµc = 1− 2∗1
12 = 56
222
Entonces, cocluiremos este ejemplo utilizando R, para construir el modelo agregado subya-
cente.
0 20 40 60 80 100
0.08
0.10
0.12
0.14
0.16
Aprox. Pollaczec−Khinchin
x
Ψ(u
)
223
Reservas
Las reservas para las companıas de seguros han tenido un desarrollo muy considerablemente
en los anos recientes, ocasionado por el crecimiento del mercado de seguros, con procesos
de suscripcion de riesgos (coberturas) cada vez mas complejos. Se han desarrollado nuevos
productos de seguros que se adaptan a las necesidades mas especıficas de la poliza. Ademas,
tambien han surgido reclamaciones latentes que ponen mayores presiones sobre los recur-
sos de la empresa. Los desastres recientes, como las inundaciones en Europa y los ataques
terroristas del 11 de septiembre a los EE.UU., han contribuido a la necesidad de formas
complejas de analisis de la siniestralidad, motivando la revision de los modelos utilizados en
las reservas de siniestros, para garantizar resultados acordes a estos nuevos esquemas.
El pago de las reclamaciones es el primer objetivo de una cıa. de seguros. El asegurado
realiza el pago de la prima para que, a efecto de este pago, la cıa. de seguros acepte la re-
sponsabilidad de hacer un pago en dinero a los asegurados sobre la ocurrencia de un evento
especıfico, dentro del periodo de tiempo estipulado.
En teorıa, la responsabilidad de la aseguradora de pagar una reclamacion cristaliza en el
instante de ocurrencia de la contingencia asegurada. Sin embargo, hay muchos factores
que pueden conducir a retrasos considerables entre la ocurrencia del siniestro y su pago. En
primer lugar, la contingencia asegurada, es posible que no ocurra en un solo instante y puede,
incluso, no reconocerse como un evento exigible de pago, sino hasta muchos anos despues de
haber iniciado. En segundo lugar, la responsabilidad legal de la aseguradora no siempre es
clara, y puede haber retrasos considerables antes de que la companıa de seguros (o tribunal)
decida que existe tal responsabilidad. En tercer lugar, podrıa ser imposible determinar el
monto de los danos hasta que haya transcurrido un periodo de tiempo desde ocurrencia del
evento. En cuarto lugar, estan los retrazos ocurridos dentro de la oficina de la companıa de
seguros, en el registro de las reclamaciones, en el procesamiento del archivo de reclamaciones,
la autorizacion, envıo y cobro del pago de la reclamacion, etc.
La prediccion de los montos de reclamacion no pagados es creciente en seguros de no vida
con corto plazo ya que, por su propia naturaleza, son altamente especulativos. Los detalles
especıficos sobre el metodo para hacer estas predicciones estan contenidas en un estudio
exhaustivo y muy detallado realizado por Taylor (1986). Una caracterıstica comun a to-
224
dos estos metodos es el uso de los registros de reclamaciones actuales y pasadas, dispuestas
en un triangulo de desarrollo de reclamaciones (run-off triangle) para calibrar el modelo de
prediccion propuesto antes de usarlo. Kremer (1982) mostro como el metodo clasico de chain
ladder para la estimacion de las reclamaciones pendientes de pago en seguros generales, esta
fuertemente relacionada con el analisis de varianza de dos vıas. El desarrollo de este capıtulo,
esta basado en el tratamiento estadıstico de las reservas de reclamaciones realizado por Mack
(1991), que se percato de la relacion entre los metodos de estimacion de siniestros ocurrido
pero no declarados (debengados) (IBNR) y los metodos de tarificacion de automoviles. Este
modelo parametrico se implementa actualmente a traves de un modelo lineal generalizado
(GLM) y se aplica a los datos de reclamacion. Nuestro objetivo es explorar a fondo las
caracterısticas de los motodos chain ladder y tecnicas relacionadas.
Calculo de reservasIntroduccion
Definicion de reserva: Monto de recursos necesarios para hacer frente a las obligaciones
asumidas por la companıa de seguros, reconociendo el efecto de interes e inflacion, ası como
los gastos de administracion derivados de la cartera, considerando la participacion de rease-
guro.
Objetivo de la reserva: Dotar a la companıa de los recursos necesarios para realizar el pago
de las obligaciones que le son reclamadas y los gastos en que incurre por la administracion
de su cartera.
Principales Reservas Tecnicas a Constituir
• De Riesgos en Curso (RRC)
• De Obligaciones Pendientes de Cumplir (OPC), o de Siniestros Pendientes
• De Siniestros Ocurridos No Reportados (SONR) (IBNR)
• Reservas Tecnicas Especiales (Catastroficas)
Metodos de Calculo
225
• Chain Ladder
• Bornhuetter-Ferguson
• Siniestralidad Esperada
• Metodos Estocasticos
• Chain Ladder estocastico
• Bootstrap
• Mack
Fundamentos tecnicos
Se debe registrar ante la C.N.S.F. a traves de una Nota Tecnica que exponga el metodo
actuarial con el cual se realizara la valuacion y que contenga:
• Formulas y procedimientos.
• Hipotesis: Demograficas, financieras y cualquier otra que se pretenda utilizar.
• Informacion estadıstica (datos).
• Opinion del auditor externo actuarial.
• Firma del actuario certificado responsable de la elaboracion y valuacion.
226
Reservas de Riesgos en Curso (RRC)
Porcion de las primas equivalente a la fraccion no devengada de las mismas a la fecha de
valuacion, despues de descontar el costo de adquisicion (VP de las obligaciones y costos
futuros (administracion), incluyendo sus margenes).
Se divide en dos grandes grupos:
Seguros a Corto Plazo (EPA No.24), y
Seguros de Largo Plazo (EPA No.45)
a) RRC a Corto Plazo, elementos para el calculo:
Sobre la cartera en vigor por el tiempo que le falta por transcurrir (no devengada) incluyendo
la tasa tecnica de interes, considerar los costos futuros de: Siniestralidad y otras obligaciones
contractuales, margen para desviaciones, Costos de Administracion, Adquisicion y el margen
de Utilidad.
Basarse en informacion suficiente y confiable, sobre la cartera de riesgos en curso y las vari-
ables que se utilizaron para determinar la prima de tarifa suficiente.
Reconocer la participacion del Reaseguro
Generalmente se supone uniformidad del riesgo a lo largo de la vigencia, por lo que el riesgo,
en un momento dado, es proporcional al tiempo que falta para concluir la vigencia.
Efecto de Reaseguro
Para considerar el efecto de la existencia de contratos proporcionales de reaseguro, en la
formula de calculo se tendrıan que sustituir los conceptos de Prima de Riesgo y Prima Emi-
tida No Devengada, por Prima de Riesgo No Devengada de Retencion y Prima Emitida No
Devengada de Retencion, respectivamente. En el caso en que las obligaciones del reasegu-
rador no sean paralelas a las de la cedente (seguros proporcionales con porcentajes distintos
de participacion dependiendo del nivel de siniestralidad, recorte de colas, etc.). Se deberan
valuar las obligaciones atendiendo lo dispuesto en los oficios circulares OS-10-06, OS-13-06
4EPA= Estandares de Practica Actuarial Adoptados por el CONAC, anexo 7.7.1 de la Circular Unica5EPA= Estandares de Practica Actuarial Adoptados por el CONAC, anexo 7.7.1 de la Circular Unica
227
(Automoviles), OS-12-06 (Terremoto) y a la tecnica actuarial aplicable al caso.
Reservas de Obligaciones Pendientes de Cumplir (OPC), o de Siniestros Pen-
dientes
Equivale al saldo de siniestros en tramite, Estimacion Inicial (±) Ajustes-Pagos
Siniestros
• En Tramite
• En Litigio
• Siniestros Ocurridos pero no reportados
• Siniestros Pendientes de Valuacion
• Gastos de ajuste asignados al siniestro
Dividendos
• Experiencia en Siniestralidad
• Experiencia propia
• Participacion en Rendimientos Financieros
Definicion
La Reserva de Siniestros Pendientes en Tramite se constituye como un medio para hacer
frente a las obligaciones economicas derivadas de la ocurrencia de un siniestro notificado a
la companıa que, a la fecha de valuacion, todavıa no ha sido pagado o totalmente pagado.
Se asume que la reclamacion se registra en tiempo y forma, ası como con la mejor estimacion
posible del costo del siniestro.
Mecanica de Operacion
Esta reserva se constituye en el momento en el que la Aseguradora tiene conocimiento de la
ocurrencia de un siniestro y se reserva una estimacion inicial del monto del dano de acuerdo
228
a los bienes y coberturas amparadas en la poliza.
Se realizan ajustes a esta reserva cuando se tiene una estimacion mas detallada de los danos
o se determinan perdidas como consecuencia directa del siniestro. (“Ajustes de mas” cuando
el monto de las obligaciones aumenta y “ajustes de menos” cuando disminuye).
Normalmente el proceso de ajuste se realiza a traves de especialistas llamados ajustadores,
cuya funcion es emitir un juicio sobre la situacion de los bienes danados y traducir el nivel del
dano a montos de efectivo. En el caso de ramos como automoviles, el ajustador se auxilia con
herramientas de computo como “Valua Data” que permite, mediante sofisticados sistemas
de costeo, determinar un monto mas objetivo para el siniestro.
Por ultimo, esta reserva se elimina cuando se pagan los montos reservados o se declara el
siniestro como improcedente.
Algunas veces el asegurado y la companıa no llegan a un acuerdo sobre la indemnizacion de
un siniestro en cuyo caso el asegurado recurre a la Comision Nacional para la Proteccion
y Defensa de los Usuarios de Servicios Financieros, y esta ultima ordena a la companıa la
constitucion de una reserva, con sus respectivos intereses por mora, en lo que se determina
la situacion judicial de las partes. (ver Art. 135 Bis, 136 LGISMS).
Siniestros Ocurridos No-reportados (IBNR / SONR)
Estimacion de siniestros que ya ocurrieron a la fecha de valuacion, pero que no han sido
reportados por distintas razones, o que el costo estimado inicialmente resulte menor al real,
o que aun no han sido valuados (se usa metodo estadıstico actuarial basado en la experiencia
particular de la companıa para su estimacion).
Los siniestros ocurridos pero no reportados, son aquellos eventos que se producen en un
intervalo de tiempo, durante la vigencia de la poliza, pero que se conocen con posterioridad
a la fecha de cierre o de valuacion de un periodo contable. El objeto de la reserva por sinie-
stros ocurridos y no reportados es crear provisiones para cubrir los siniestros que no han sido
reportados a una fecha determinada, pero que ya ocurrieron.
La reserva por Siniestros Ocurridos pero no Reportados, tiene como objeto hacer una pro-
vision de recursos que sirvan para enfentrar el pago de aquellas reclamaciones que, habiendo
229
ocurrido en determinado ano, sean reportadas en anos futuros. El pago retrazado de los
siniestros puede producir perdidas en ejercicios donde no corresponde, distorsionando los
resultados de ese ano. Asimismo, el efecto de retrazo en las reclamaciones produce una
distorsion en los estados financieros de una institucion, ya que puede reflejar una aparente
utilidad anual, que puede deberse al efecto del pago retrazado de reclamaciones. El pro-
ceso de las reclamaciones atrazadas que provienen de un determinado ano de origen, se
distribuyen en un periodo al que se le llama periodo de desarrollo.
Objetivos
• Permite constituir los recursos para que estos esten disponibles al momento en que esos
siniestros sean reclamados
• Evita reconocer una utilidad no ganada.
Los siniestros ocurridos y no reportados, se constituyen por:
• Siniestros ocurridos pero aun no reportados (Incurred but not yet reported IBNYR), los
cuales se caracterizan porque el acaecimiento del siniestro no ha sido reportado aun, debido
a retrasos de tipo administrativo o de la clase de contingencia cubierta (IBNR Puro).
• Siniestros ocurridos pero no reportados completamente (Incurred but not enough reported
IBNER), son aquellos ya ocurridos y reportados, pero cuyo costo esta incompleto o no ha
sido determinado con precision (SPV).
Pueden valuarse en conjunto o por separado.
Metodos de Calculo
• Chain Ladder
• Bornhuetter-Ferguson
• Siniestralidad Esperada
• Metodos Estocasticos
• Chain Ladder estocastico
230
• Bootstrap
• Mack
231
Estructura general de la informacion para el calculo de la provision para siniestros pendientes
Calculo de Triangulos de Desarrollo
El analisis del comportamiento de los siniestros ocurridos no reportados, puede hacerse or-
denando los siniestros en un arreglo matricial que consiste en asignar a cada renglon, el ano
de origen y a cada columna, el ano de desarrollo, de manera que cualquier siniestro puede
ser clasificado en este arreglo matricial de acuerdo al ano de origen del cual proviene y al
ano de desarrollo en el que fue reclamado. A este arreglo de clasificacion de siniestros se le
conoce como triangulo de desarrollo de siniestros.
Tiangulo de desarrollo de siniestros
Ano Desarrollo por ano1 2 · · · j · · · n-1 n
1 C11 C12 · · · C1j · · · C1,n−1 C1n
2 C21 C22 · · · C2j · · · C2,n−1
......
......
...
i Ci1 Ci2 · · · Ci,n+1−i
n-1 Cn−1,1 Cn−1,2
n Cn1
Las Cij representan monto de reclamacion o numero de reclamaciones, registrado durante
el periodo i (periodo de ocurrencia) y reportado en el momento de desarrollo j (periodo de
reclamo).
Marco estructural del problema de las reservas para siniestros
Supongamos que tenemos N reclamaciones dentro de un periodo de tiempo fijo con fechas
de reporte T1, ..., TN (Supongamos que estan ordenadas, Ti ≤ Ti+1 ∀ i). Consideremos la
i-esima reclamacion. Entonces, Ti = Ti,0, Ti,1, ..., Ti,Ni denota la secuencia de fechas en las
que alguna situacion ocurre con esta reclamacion, por ejemplo, al tiempo Tij se realiza un
pago, se estima un ajuste de esta reclamacion o se recaba nueva informacion sobre ella. Ti,Ni
denota a liquidacion definitiva de la reclamacion. Suponga que Ti,Ni+k = ∞ para k ≥ 1.
Especificaremos los eventos que ocurren al tiempo Ti,j como
232
Xi,j =
Pago al tiempo Ti,j para la reclamacion i
0, Si no hay pago al tiempo Ti,j
Ii,j =
Nueva informacion disponible sobre la reclamacion i, al tiempo Ti,j
∅, Si no hay nueva informacion al tiempo Ti,j
Definimos Xi,j = 0, y Ii,j = 0 si Ti,j =∞.
Con esta estructura se puede definir varios procesos interesantes; ademas, el problema de
reserva para reclamaciones, se puede dividir en varios sub problemas.
• Proceso de pago de la i-esima reclamacion. (Ti,j, Xi,j)j≥0 define el siguiente proceso de
pagos acumulados para la reclamacion i
Ci(t) =∑
j:Ti,j≤t
Xi,j
con Ci(t) = 0 para t < Ti. La cantidad maxima demandada por la reclamacion i es
Ci (∞) = Ci (Ti,Ni) =∑j≥0
Xi,j
La reserva total de reclamacion para la reclamacion i en el momento t para los pasivos fu-
turos (pendientes de reclamacion al tiempo t), esta dada por
Ri (t) = Ci (∞)− Ci (t) =∑
j:Ti,j>t
Xi,j
• El proceso de informacion de la reclamacion i esta dado por (Ti,j, Ii,j)j≥0
• El proceso de liquidacion definitiva de la reclamacion i esta dado por (Ti,j, Ii,j, Xi,j)j≥0
Denotaremos los procesos agregados para todas las reclamaciones por
233
C(t) =N∑i=1
Ci(t)
R(t) =N∑i=1
Ri(t)
C(t) denota todos los pagos hasta el tiempo t para todas las N reclamaciones, y R(t) denota
los pagos de siniestros pendientes (reservas) al tiempo t para estas N reclamaciones.
Consideremos ahora el problema de reservas como un problema de prediccion. Sea
FNt = σ
((Ti,j, Ii,j, Xi,j)i≥0,j≥0 |Ti,j ≤ t
)la informacion disponible al tiempo t. Esta sigma-algebra se obtiene a partir de la infor-
macion disponible en el momento t del proceso de liquidacion de siniestros.
A menudo se dispone de informacion exogena adicional, εt al tiempo t (cambio de la practica
jurıdica, inflacion, informacion del mercado, etc.) Por lo tanto se define la informacion que
la companıa de seguros tiene en el tiempo t por
F = σ(FNt ⊗ εt
)Hay que estimar las distribuciones condicionales
µt = P (C (∞) |Ft)
Con los primeros dos momentos
Mt = E [C (∞) |Ft]
Vt = V [C (∞) |Ft]
234
Propiedades fundamentales del proceso de reservas
Ya que
C (∞) = C(t) +R(t)
tenemos que
Mt = E [C (∞) |Ft]
= E [C(t) +R(t)|Ft]
= E [C(t)|Ft] + E [R(t)|Ft]
= C(t) + E [R(t)|Ft]
ademas
Vt = V [C (∞) |Ft]
= V [C(t) +R(t)|Ft]
= V [R(t)|Ft]
Lema 1 Mt es una Ft −martingala. Esto es, para t > s se tiene que
E [Mt|Ft] = Ms, c.s.
Dem. Trivial.
Lema 2 El proceso de varianza Vt es una Ft−supermartingala. Esto es, para t > s se tiene
que
E [Vt|Ft] ≤ Vs, c.s.
Dem.
235
E [Vt|Ft] = E [V (C(∞)|Ft) |Fs]
= E[E[C2 (∞) |Ft
]|Fs
]− E
[E [C (∞) |Ft]
2 |Fs
]≤ E
[C2 (∞) |Fs]− E [E [C (∞) |Ft] |Fs]
2 (Desigualdad de Jensen : E [g (X)] ≥ g (E [X]))
= V (C (∞) |Fs) = Vs
Consideremos u > t dos tiempos del proceso. Definimos el incremento de t a u como
M(t, u) = Mu −Mt
Entonces tenemos c.s. que
E [M(u, t)M(u,∞)|Ft] = E [M(u, t)E [M(u,∞)|Fu] |Ft]
= E [M(u, t) (E [C(∞)|Fu]−Mu) |Ft] = 0
que implica que M(t, u) y M(u,∞) no estan correlacionadas, que es la propiedad bien cono-
cida de las martingalas de incrementos no correlacionados.
Esta primera aproximacion al problema de reservas de reclamaciones utiliza la representacion
integral de martingalas, que conduce al “proceso de inovacion” que determina Mt al actu-
alizar Ft.
• Esta teorıa es bien conocida.
• Se tiene poca idea sobre el proceso de actualizacion.
• No se tienen suficientes datos desde el punto de vista estadıstico.
Segunda aproximacion al problema de reservas. Para t < u tenemos que Ft ⊂ Fu. Ya que
Mt es una Ft −martingala, se tiene que
E [M(t, u)|Ft] = 0 c.s
Definamos el incremento de pagos entre t y u como
236
X(t, u) = C(u)− C(t)
Por lo tanto tenemos que
M(t, u) = Mu −Mt
= E [C(∞)|Fu]− E [C(∞)|Ft]
= C(u) + E [R(u)|Fu]− (C(t) + E [R(t)|Ft])
= X(t, u) + E [R(u)|Fu]− E [C(u)− C(t) +R(u)|Ft]
= X(t, u)− E [X(t, u)|Ft] + E [R(u)|Fu]− E [R(u)|Ft]
que esta compuesta por los siguientes dos terminos
1.- Error de prediccion para los pagos en el plazo (t, t+ 1], (u = t+ 1)
X(t, t+ 1)− E [X(t, t+ 1)|Ft]
2.- Error de prediccion de las reservas de R(t+ 1) cuando se ha actualizado la informacion
E [R(t+ 1)|Ft+1]− E [R(t+ 1)|Ft]
Reclamaciones conocidas y desconocidas
Definido el concepto de reclamaciones IBNyR (ocurridas pero aun no reportados). El pro-
ceso siguiente cuenta el numero de siniestros reportados
Nt =∑i≥1
1Ti≤t
Podemos dividir la demanda total y las reservas en el momento t, respecto a la situacion de
si se tiene una reclamacion reportada o una catalogada como IBNyR por
R(t) =∑i
Ri(t) · 1Ti≤t +∑i
Ri(t) · 1Ti>t
con
237
∑i
Ri(t) · 1Ti≤t reservas para las reclamaciones reportadas al tiempo t
∑i
Ri(t) · 1Ti>t reservas al tiempo t, para reclamaciones IBNyR
Y definimos
Rrept = E
[∑i
Ri(t) · 1Ti≤t∣∣∣Ft
]= E
[Nt∑i=1
Ri(t)∣∣∣Ft
],
RIBNyRt = E
[∑i
Ri(t) · 1Ti>t∣∣∣Ft
]= E
[N∑
i=Nt+1
Ri(t)∣∣∣Ft
]
con N el total aleatorio de reclamaciones. Es facil ver que
Rrept =
∑i≤Nt
E[Ri(t)
∣∣∣Ft
]
RIBNyRt = E
[N∑
i=Nt+1
Ri(t)∣∣∣Ft
]
Rrept denota los pagos futuros esperados al tiempo t, de los siniestros reportados. Conocido
como “el mejor estimador de las reservas tiempo t, para siniestros reportados”. RIBNyRt son
los pagos futuros esperados al tiempo t, para reclamaciones IBNyR (o “el mejor estimador
de reservas al tiempo t, para reclamaciones IBNyR”).
En conclusion, estas dos expresiones muestran que las reservas para siniestros reportados y
la reservas para siniestros IBNyR son de muy diferente naturaleza:
i) Las reservas para siniestros reportados se deben determinar de forma individual, es decir,
con base en uno solo de los siniestros. A menudo se tiene suficiente informacion sobre reporte
de reclamaciones, para realizar una estimacion de las reclamaciones individuales.
ii) Las reservas para siniestros IBNyR no pueden desagregarse debido al hecho de que N no
se conoce al momento t. Ademas, no tenemos informacion sobre reclamaciones individuales.
Esto muestra que las reservas IBNyR deben determinarse con base en un colectivo de recla-
maciones.
238
Desafortunadamente, la mayorıa de los metodos clasicos de reservas no distinguen entre
reclamaciones reportadas y reclamaciones IBNyR, es decir, que estiman las reservas de sinie-
stros de la misma manera en ambas casos. En este contexto, tengo que decepcionarlos un
poco, porque la mayorıa de los metodos que presentaremos tampoco hacen esta distincion.
Terminologıa y notacion el triangulo de desarrollo de siniestros
En este apartado presentamos la terminologıa y notacion clasica de las resrevas de recla-
maciones. En la mayorıa de los casos la reclamaciones pendientes se estiman a traves de
llamado triangulo de desarrollo de reclamaciones, que clasifica las reclamaciones sobre dos
ejes de tiempo. Usualmente denotados como
i = ano del evento, ano de ocurrencia,
j = ano de desarrollo, periodo de desarrollo
Para fines ilustrativos se asume que Xi,j denota todos los pagos en el periodo de desarrollo,
j, de reclamaciones que ocurrieron en el ano, i, es decir, lo que corresponde al incremento
del pago de reclamaciones ocurridas en el ano i, realizadas en el ejercicio contable i+ j.
En un triangulo de desarrollo, las reclamaciones por ano suelen estar en la lınea vertical,
mientras que los periodos de desarrollo estan en la lınea horizontal. En general las tablas
de desarrollo se dividen en dos partes; la parte superior del triangulo / trapezoide, donde
tenemos observaciones y el triangulo inferior donde debemos estimar la los pagos pendientes.
En las diagonales siempre vemos los ejercicios contables. De ahı que los datos de las recla-
maciones tienen la siguiente estructura:
239
Tiangulo de desarrollo de siniestros
Ano evento Desarrollo por ano0 1 · · · j · · · J-1 J
0
1
... Datos observados de las v.a. Ci,j Xi,j
i Predicciones Ci,j, Xi,j
I-1
I
Los datos se pueden mostrar en forma acumulativa o en forma no acumulativa (incremental).
Los datos incrementales se denotan por Xi,j y datos acumulados dados por
Ci,j =
j∑k=0
Xi,k
Los datos incrementales, Xi,j, puede denotar los pagos incrementales en la celda (i, j), el
numero de siniestros reportados con retraso de reporte j y ano de ocurrencia i, o el cambio
en la cantidad de reclamaciones reportado en la celda (i, j). Para los datos acumulados Ci,j,
generalmente se utiliza el termino de pagos acumulados, o el numero total de reclamaciones
reportadas o reclamaciones incurridas (para siniestros declarados acumulativos). Ci,∞ se
conoce comunmente como monto total de la demanda o carga total de la reclamacion i o el
numero total de reclamaciones en el ano i.
Xi,j : Pagos incrementales⇔ Ci,j : Pagos acumulados
Xi,j : Num. de reclamaciones reportadas con retrazo j ⇔ Ci,j : Num. total de reclamaciones reportadas
Xi,j : Cambio en la cantidad de reclamaciones reportadas⇔ Ci,j : Siniestros incurridos
Usualmente denotamos las observaciones por DI = Xi,j : i+ j ≤ I en la parte superior del
trapezoide, y D cI = Xi,j : i+ j > I que necesitan estimarse.
Los pagos en un solo ejercicio contable estan dados por
240
Xk =∑i+j=k
Xi,j
que son los pagos en la (k+1)-esima diagonal.
Si Xi,j denota pagos incrementales, entonces las reservas de reclamacion para el ano i al
tiempo j estan dada por
Ri,j =∞∑
k=j+1
Xi,k = Ci,∞ − Ci,j
Ri,j se conoce tambien como la reserva para siniestros. Se trata fundamentalmente de la
cantidad que tenemos que estimar (triangulo inferior) para que junto con los ultimos pagos,
Ci,j, obtengamos toda la carga de las reclamaciones (monto total) para los eventos del ano i.
Teniendo en cuenta los modelos de reservas, es decir, modelos que estiman las reclamaciones
totales, existen diversas posibilidades para estas.
• Para datos acumulativos o datos incrementales
• Para datos de pagos de reclamaciones incurridas
• Para la division de los datos en reclamaciones pequenas y grandes
• Numero de reclamaciones y promedio de reclamaciones
• Etc.
Por lo general, diferentes metodos y diferentes formas de agregarcion de los datos, conducen
a resultados muy diferentes. Solo un actuario con basta experiencia en reservas, es capaz
de decidir cual es una forma adecuada de estimacion para las obligaciones futuras en un
conjunto especıfico de datos.
241
Metodo Chain-Ladder (libre de distribucion)
El modelo de Chain-Ladder es, probablemente, la tecnica para calcular reservas mas popular.
Proporcionaremos diferentes derivaciones para este metodo. Iniciaremos con la derivacion
libre de distribucion del Chain-Ladder.
La literatura clasica actuarial, generalmente refiere al metodo de Chain-Ladder como un algo-
ritmo puramente computacional para estimar las reservas de siniestros. Fue mucho mas tarde
que los actuarios empezaron a considerar modelos estocasticos para desarrollar o generar el
algoritmo de este metodo. El primero que utilizo un modelo completamente estocastico para
el metodo Chain-Ladder fue Mack (1993). Publicando, en 1993, uno de los artıculos mas
famosos para calculo de reservas con errores estandar en el modelo Chain-Ladder.
Entonces, este algoritmo se basa en los pagos acumulados
Ci,j =
j∑k=0
Xi,k
Esto es, sumamos los pagos incrementales, Xi,k, k ≥ 0, para una ano de ocurrencia del sinie-
stro fijo, i, y, como son reclamaciones acumuladas, en ultima instancia obtenemos Ci,J−1 = Si,
con Si el total de reclamaciones que corresponden al ano de ocurrencia del siniestro, i.
La idea detras del algoritmo Chain-Ladder (CL) es que todos los anos de ocurrencia de
siniestros se comportan de manera similar y, para reclamaciones acumuladas, se tiene que
• Supuestos del modelo Chain-Ladder
Existen f0, f1, ..., fJ−1 > 0 factores de desarrollo tales que para toda 0 ≤ i ≤ I y toda
0 ≤ j ≤ J se tiene que
E [Ci,j|Ci,0, Ci,1, ..., Ci,j−1] = E [Ci,j|Ci,j−1] = fj−1Ci,j−1
e independencia entre los anos de eventos (entre los renglones del triangulo de desarrollo).
Observaciones
242
• Se supone independencia entre los anos de ocurrencia. Mas adelante veremos que este
supuesto se hace en casi todos los metodos. Esto significa que ya se han eliminado los efec-
tos del ano de contabilidad en los datos.
• Ademas, podemos hacer supuestos mas fuertes sobre las sucesiones Ci,0, Ci,1, ... asumiendo
que forman una cadena de Markov. Por lo tanto, tenemos que
Ci,j ·j−1∏l=0
f−1l
forman una martingala para j ≥ 0.
• Los factores fj reciben el nombre de factores de desarrollo o factores Chain-Ladder. Son
el objetivo de interes central en el metodo Chain-Ladder.
Lema. Sea DI = Xi,j : i+ j ≤ I el conjunto de observaciones (trapecio superior). Bajo el
modelo Chain-Ladder, tenemos que para toda I − J + 1 ≤ i ≤ I ocurre que
E [Ci,J |DI ] = E [Ci,J |Ci,I−i] = Ci,I−i · fI−i · · · fJ−1
Dem. Este es un ejercicio de esperanza condicional
E [Ci,J |Ci,I−i] = E [Ci,J |DI ]
= E [E [Ci,J |Ci,J−1] |DI ]
= E [fJ−1Ci,J−1|DI ]
= fJ−1E [Ci,J−1|DI ]
Si iteramos este procedimiento hasta llegar a la diagonal i+ j = I obtenemos la afirmacion.
Este lema proporciona un algoritmo para estimar el valor esperado de la demanda final,
Ci,J , dadas las observaciones DI , de la siguiente manera. Para cualquier ano de ocurrencia
i, elegir la ultima observacion en la diagonal, esto es Ci,I−i, y multiplicar sucesivamente esta
observacion por los factores de desarrollo fI−i, ..., fJ−1.
243
Por otro lado, para factores de desarrollo conocidos, fj, estimamos los siniestros esperados
pendientes de pago del ano i basado en DI , por
E [Ci,J |DI ]− Ci,J−1 = Ci,I−i · (fI−i · · · fJ−1 − 1)
que corresponde al “mejor estimador”’ de las reservas del ano i al tiempo I (basado en la in-
formacion DI). Desafortunadamente, en la mayorıa de las aplicaciones practicas los factores
Chain-Ladder no se conocen y necesitan estimarse. Los factores Chain-Ladder se estiman por
fj−1 =
I−j∑k=0
Ck,j
I−j∑k=0
Ck,j−1
=
I−j∑i=1
Ci,j∑I−jn=1Cn,j
Ci,jCi,j−1
=
I−j∑i=1
wijfij
Entonces, la estimacion (CL) de E [Ci,j|DI ] esta dada por
CCLi,j = E [Ci,j|DI ] = Ci,I−1 · fI−i · · · fj−1, para i+ j > I
Definamos ahora Bk = Ci,j : i+ j ≤ I, 0 ≤ j ≤ k ⊆ DI . Observese que BJ = DI , que es
un subconjunto de todas las observaciones al tiempo I.
Lemma Bajo el supuesto para el modelo Chain-Ladder, tenemos que
a) fj, dado Bj, es un estimador insesgado de fj. Esto es: E[fj∣∣BJ
]= fj
b) fj es (incondicionalmente) insesgado para fj. Esto es: E[fj
]= fj
c) f0, ..., fJ−1 nos estan correlacionados. Esto es: E[f0, ..., fJ−1
]= E
[f0
]· · ·E
[fJ−1
]d CCL
i,J , dado Ci,I−1 es un estimador insesgado de E [Ci,J |DI ] = E [Ci,J |Ci,I−i]. Esto es:
E[CCLi,J
∣∣∣CI−i] = E[Ci,J
∣∣∣DI
], y
e CCLi,J es (incondicionalmente) insesgado para E [Ci,J ]. Esto es: E
[CCLi,J
]= E [Ci,J ]
244
En principio, el hecho de que los factores estimados Chain-Ladder, fj, no esten correlaciona-
dos, parece sorprendente, ya que dependen de los mismos datos.
Dem. lema
a) Para demostrar este primer inciso tenemos
E[fj−1|Bj−1
]=
I−j∑k=0
E [Ck,j|Bj−1]
I−j∑k=0
Ck,j−1
=
I−j∑k=0
Ck,j−1 · fj−1
I−j∑k=0
Ck,j−1
= fj−1
que inmediatamente implica la condicion de insesgamiento.
b) Se sigue inmediatamente de a).
c) Para j < k tenemos
E[fj fk
]= E
[E[fj fk|Bk
]]= E
[fjE
[fk|Bk
]]= E
[fjfk
]= fjfk
d) Para demostrar este iniciso
E[CCLi,J |Ci,I−i
]= E
[Ci,I−i · fI−i · · · fJ−1|Ci,I−i
]= E
[Ci,I−i · fI−i · · · fJ−1E
[fJ−1|BJ−1
]|Ci,I−i
]= fJ−1E
[CCLi,J−1|Ci,I−i
]iterando este procedimiento obtenemos
E[CCLi,J |Ci,I−i
]= Ci,I−i · fI−iE · · · fJ−1 = E [Ci,J |DI ]
e) es consecuencia inmediata de d).
Observaciones
245
Hemos demostrado que que los estimadores fj no estan correlacionados, pero no son indepen-
dientes. De hecho, los cuadrados de dos estimadores sucesivos fj y fj+1 estan correlacionados
negativamente.
Obserevese que el inciso d de este lemma, demuestra que podemos obtener estimadores ins-
esgados del mejor estimador de las reservas E [Ci,J |DI ].
246
El metodo de Bornhuetter-Ferguson
El metodo Bornhuetter-Ferguson es, en general, un metodo muy robusto, ya que no toma en
cuenta los valores extremos en las observaciones. El metodo se remonta a 1972 en el artıculo
de Bornhuetter-Ferguson titulado “el actuario e IBNR”. El metodo Bornhuetter-Ferguson
se suele entender como un algoritmo puro para estimacion de reservas (esta es tambien la
forma en que fue publicado por ellos).
Ventajas del metodo BF
• Mayor estabilidad que los metodos de desarrollo
• Refleja en cierta medida los datos mas recientes
• Permite suavizar los resultados
• El metodo de desarrollo tiende a subestimar cuando el ocurrido es bajo y a so-
breestimar si es alto
• Permite incorporar los cambios en la estructura de las tarifas
• Permite estimar el IBNR cuando la informacion es escasa
• Permite incorporar los cambios en la estructura de las tarifas
Desventajas
• Requiere la estimacion de la siniestralidad esperada inicial
• Requiere la estimacion de porcentajes de desarrollo de siniestros
Hay varios posibilidades de definir un modelo estocastico subyacente apropiado que motive
el metodo BF. Los siguientes supuestos son faciles de cumplir:
Supuestos (1) sobre el metodo Bornhuetter-Ferguson
• Los diferentes anos de ocurrencia de los eventos, son independientes.
247
• Existen parametros µ0, µ1, ..., µI > 0 y patrones β0, β1, ..., βJ > 0 con βJ = 1, tales que,
para toda i ∈ 1, 2, ..., I, j ∈ 1, 2, ..., J − 1 y k ∈ 1, 2, ..., J − j, se tiene que
E [Ci,0] = µi · β0,
E [Ci,j+k] = Ci,j + µi · (βj+k − βj)
Entonces, tenemos que E [Ci,j] = µiβj y E [Ci,J ] = µiβJ = µi · 1 = µi. La sucesion βjjdenota los patrones de desarrollo de las reclamaciones. Si Ci,j son los pagos acumulados,
entonces βj es el patron de flujo de caja acumulado esperado (the expected cumulative cash-
flow pattern) (tambien llamado patron de pagos). Tal patron se utiliza a menudo, cuando
se necesita construir reservas market-consistent/discounted, donde valores de tiempo difieren
en el tiempo. Entonces, estos supuestos implican los siguientes
Supuestos (2) sobre el metodo Bornhuetter-Ferguson
• Los diferentes anos de ocurrencia de los eventos, son independientes.
• Existen parametros µ0, µ1, ..., µI > 0 y patrones β0, β1, ..., βJ > 0 con βJ = 1, tales que,
para toda i ∈ 1, 2, ..., I, j ∈ 1, 2, ..., J − 1, se tiene que
E [Ci,j] = µi · βj
La idea detras del metodo BF es que todos los anos de ocurrencia de eventos i ∈ 1, ..., I
tienen un comportamiento similar, con un comportamiento de los pagos de reclamaciones
Ci,j ≈ µj · βj
para cierta informacion inicial µi y cierto patron de desarrollo βjj=0,...,J−1 normalizadas∑J−1j=0 βj = 1.
El valor inicial µi debe reflejar el total esperado de del ejercicio contable i, E [Ci,J−1]. Se
supone que este valor inicial se da de manera externa, de acuerdo a la opinion de expertos
que, en teorıa, no deberıa basarse en DI .
248
Regularmente, estos son los supuestos (2) para generar el modelo BF, no obstante, solo con
estos supuestos, podemos tener ciertas dificultades. Observemos que
E [Ci,J |DI ] = E [Ci,J |Ci,0, ..., Ci,I−1]
= E [Ci,J − Ci,I−i + Ci,I−i|Ci,0, ..., Ci,I−1]
= Ci,I−i + E [Ci,J − Ci,I−i|Ci,0, ..., Ci,I−1]
Si no tenemos supuestos adicionales sobre la estructura de dependencia entre los incremen-
tos en las reclamaciones, no sabremos que hacer exactamente con el ultimo termino de la
expresion anterior. Si supieramos que estos incrementos Ci,J − Ci,I−i son independientes de
Ci,0, ..., Ci,I−1, entonces esto implicarıa que
E [Ci,J |DI ] = E [Ci,J |Ci,0, ..., Ci,I−1]
= Ci,I−i + E [Ci,J − Ci,I−i] por independencia
= Ci,I−i + E [Ci,J ]− E [Ci,I−i]
= Ci,I−i + βJµi − βI−iµi
= Ci,I−i + (1− βI−i)µi
que tambien se desprende de los supuestos del modelo.
Estimador del modelo BF
Ci,J = E [Ci,J |DI ] = Ci,I−i +(
1− βI−i)· µi
I − J + 1 ≤ i ≤ I. Con βI−i un estimador de βI−i y µi un estimado inicial para E [Ci,J ]. Ya
que µi es una estimacion basada en la opinion de expertos y, probablemente, independiente
de la informacion observada DI , lo unico que hay que estimar en este modelo son los factores
o patrones de desarrollo βj.
Comparacion de los estimadores BF y Chain-Ladder
De acuerdo a los supuestos sobre el modelo Chain-Ladder tenemos que
249
E [Ci,j] = E [E [Ci,j|Ci,j−1]] = fj−1E [Ci,j−1] = E [Ci,0]
j−1∏k=0
fk
entonces
E [Ci,J ] = E [Ci,0]J−1∏k=0
fk
que implica
E [Ci,j] =
j−1∏k=0
fk
J−1∏k=0
f−1k E [Ci,J ]
=J−1∏k=j
f−1k E [Ci,J ]
Si comparamos esta expresion con la correspondiente del metodo BF, E [Ci,j] = µiβj, encon-
tramos que
J−1∏k=j
f−1k “juega el papel de” βj
ya queJ−1∏k=j
f−1k corresponde a la proporcion ya pagada de µi = E [Ci,J ] despues de j periodos
de desarrollo en el metodo Chain-Ladder. Note que esta correspondencia entre las β′j y el
producto de los factores de desarrollo se obtiene unicamente mediante los supuestos (2) y no
con (1) ya que estos no son implicados por los supuestos Chain-Ladder ni viceversa.
Estimacion de los patrones de desarrollo
Ya comentamos que, dada la forma como se estima µi en el modelo BF, solo debemos ocu-
parnos de la estimacion de los patrones de desarrollo, es decir, de las βj. En vista del metodo
de CL, se define la siguiente los estimadores del patron de desarrollo:
250
γCLj =J−2∏k=j
1
fCLk=
∏j−1k=0 f
CLk∏J−2
k=0 fCLk
cociente que refleja, como ya dijimos, la proporcion ya pagada despues de los primeros j
periodos de desarrollo de acuerdo a los patrones de desarrollo del metodo Chain-Ladder.
Por lo que obtenemos los estimadores
βCL0 = γCL0 ,
βCLj = γCLj − γCLj−1, j = 1, 2, ..., J − 2
βCLJ−1 = 1− γCLJ−2
Una vez definidos estos estimadores, entonces predecimos la ultima reclamacion (o recla-
macion total) Ci,J−1 para i+ J − 1 > I en el metodo BF, por
CBFi,J−1 = Ci,I−i + µi
J−1∑j=I−i+1
βCLj = Ci,I−i + µi(1− γCLI−i
)
Las reservas al tiempo I para los anos de ocurrencia del siniestro i > I− (J − 1) estan dadas
por
RBFi = CBF
i,J−1 − Ci,I−i = µi
J−1∑j=I−i+1
βCLj = µi(1− γCLI−i
)
y agregado sobre todos los anos de ocurrencia de los siniestros, predecimos el total de pasivos
de perdida de las ultimas reclamaciones (reserva total), por
RBF =∑
i>I−(J−1)
RBFi
Concluiremos este apartado con una comparacion entre los valores predichos de los metodos
CL y BF. Entonces, reescribimos las predicciones realizadas mediante el metodo CL, para
i+ J − 1 > I, de la siguiente manera
251
CCLi,J−1 = Ci,I−i + Ci,I−i
J−2∏j=I−i
fCLj
(1−
J−2∏j=I−i
1
fCLj
)
de donde obtenemos las relaciones
CCLi,J−1 = Ci,I−i +
(1− βCLI−i
)CCLi,J−1,
CBFi,J−1 = Ci,I−i +
(1− βCLI−i
)µi
Por lo tanto, observamos que tenemos la misma estructura. La unica diferencia es que en el
metodo BF utilizamos la estimacion inicial externa, µi, para la demanda final y en el metodo
de la estimacion CL esta estimacion se basa en CCLi,J−1. Por lo tanto, tenemos dos posiciones
complementarias para realizar las predicciones.
252
Breve introduccion a los Modelos Lineales Generalizados (MLG)
Los modelos lineales son modelos estadısticos que sirven para cuantificar el impacto o influ-
encia que tienen las llamadas variables explicativas (caracterısticas de los sujetos o entidades
que conforman el modelo) y la llamada variable de respuesta. El mas sencillo de estos mod-
elos es el de regresion lineal simple, cuya extension natural es el modelo de regresion lineal
multiple. Este es, probablemente, el modelo lineal mas conocido en la literatura estadıstica.
La caracterıstica esencial de este modelo es que la variable de respuesta se asume con dis-
tribucion continua y su componente aleatorio se supone con distribucion normal, distribucion
que hereda la variable de respuesta.
En la modelacion estadıstica muchas veces se tienen variables de respuesta que no son con-
tinuas, por ejemplo la condicion de enfermo y no enfermo de un paciente; la preferencia
electoral de un sujeto en un marco de tres partidos polıticos en competencia; el numero
de reclamaciones en una poliza de seguros, etc. Para este tipo de respuestas, el modelo
de regresion lineal usual no es, de ninguna manera, una opcion adecuada, por lo que es
necesario modificar o ampliar este modelo para contemplar esta clase de respuestas. De
esta necesidad surgen los llamados Modelos lineales Generalizados(MLG) en los que existen
diversas estructuras de su compontente aleatorio, que se adecuan de mejor manera a las
caracterısticas de escala de medicion de sus respuetas. Estos modelos estan caracterizados
por tres componentes
• Componente aleatorio (parte aleatoria): µ = E (y|X) = y
• Un predictor lineal (parte sistematica): η = X′β
• Una funcion liga: g (µ)
El componente aleatorio tiene que ver con la distribucion que se le asocia a la respuesta
(la parte aleatoria) del modelo, misma que es sugerida por la escala de medicion de esta
respuesta. En los MLG, esta distribucion debe ser un miembro de la familia exponencial.
El predictor lineal lo constituye la parte determinıstica del modelo, es decir, los datos y los
parametros. Finalmente, la liga es una funcion que liga o asocia una transformacion de la
variable de respuesta con el predictor lineal. La estructura de este modelo es
253
g (µ) = X′β = β0 + β1X1 + β2X2 + · · ·+ βpXp o
µ = g−1(X′β)
Los miembros de la familia exponencial que determinan los principales MLG son
Funcion liga g (µ) Liga canonica para
Identica µ Normal
log ln (µ) Poisson
Potencia µp
Gamma (p = −1)
Gaussiana Inversa (p = −2)
Logit ln
(µ
1− µ
)Binomial
Ya que la escala de la variable de respuesta determina el modelo lineal generalizado que deba
de ajustarse, observamos que
• El modelo de regresion lineal estandar es un MLG con liga identica. Su respuesta es una
variable continua con rango en R.
• Si la respuesta es una variable de conteo, entonces el MLG correspondiente es el modelo
de regresion Poisson
• Si la variable de respuesta tiene solo dos categorıas, el MLG correspondiente es el modelo
de regresion logıstica o modelo logit. La liga de este modelo es el logaritmo del momio de
respuesta, y recibe el nombre de logit.
• Si la variable de respuesta es continua y positiva, los probables MLG son la regresion
Gamma o la regresion Gaussiana Inversa.
La familia exponencial
La familia de densidades de probabilidad mas importante en estadıstica es la llamada familia
exponencial. Cuya definicion es
254
Definicion: Familia exponencial. Sean y1, ..., yn variables aleatorias independientes con
funcion de densidad o de probabilidad, que puede escribirse como
f (yi; θi, φ) = exp
yiθi − b (θi)
ai (φ)+ c (yi, φ)
con
• θi es el parametro natural o canonico
• φ es un parametro de escala o dispersion
• ai (·) , b (·) y c (·) funciones especıficas para cada elemento de esta familia
∗ Si φ es conocido, este es un modelo de la familia exponencial lineal
∗ Si φ es desconocido, es un modelo de dispersion exponencial
Para algunos de los modelos que especificamos en la tabla anterior tenemos
Normal
• Distribucion N (µ, σ2)
• E (y) = µ
• Liga g(µ) = µ (identidad)
• b(θ) = θ2
2(θ = µ)
• a(φ) = 1
Poisson(λ)
• E (y) = λ
• Liga g(λ) = ln (λ)
• b(θ) = eθ (θ = λ)
• a(φ) = 1
Binomial(n,π)
• E (y) = nπ
255
• Liga g(π) = ln(
π1−π
)• b(θ) = n log(1 + eθ) (θ = π)
• a(φ) = 1
etc.
Estimacion y pruebas de hipotesis
La estimacion de los parametros que determinan cada modelo: el vector de parametros
asociados a las covariables, β, y el parametro de escala o dispersion, φ, se estiman por
maxima verosimilitud. Y los estimadores de sus varianzas se calculan por medio de la inversa
de la llamada Matriz de Informacion Observada de Fisher. Por esta razon las inferencias
para este modelo son inferencias asintoticas (excepto para el modelo estandar de regresion
lineal).
La prueba de hipotesis mas importante es sobre el modelo global
H0 : β = 0, ⇒ β1 = β2 = · · · = βp = 0 vs. Ha : βi 6= 0 p.a. i = 1, 2, ..., p
Si en un modelo concreto no rechazamos la hipotesis nula (H0), implicarıa que ninguna de
nuestras covariables es importante para explicar o predecir la respuesta, lo que llevarıa a
desechar el modelo. Si los modelos son propuestos por un sujeto que conoce su area de
aplicacion, generalmente esta hipotesis se rechaza “en favor de la hipotesis alternativa”. En-
tonces, como se enuncia en esta ultima hipotesis, lo unico que sabrıamos es que almenos
una covariable es importante para explicar la respuesta, y; pero esta hipotesis no deter-
mina cual(es) ni cuantas. Por lo que es necesario realizar pruebas individuales sobre cada
parametro (equivalentemente cada covariable) en el modelo. Las pruebas son del tipo
H0 : βi = 0 vs. Ha : βi 6= 0 i = 1, 2, ..., p
El estadıstico asociado para realizar esta prueba es una t de Student. En concreto se hace
con la estadıstica
256
βi√var
(βi
) a∼ tn−p
En el caso del modelo de regresion lineal, y dada la normalidad de su componente aleatorio,
esta estadıstica es
βi√var
(βi
) ∼ N(0, 1), o bien
β2i
var(βi
) ∼ χ2(1)
como habıamos dicho, para este modelo las inferencias son exactas.
La devianza
Una forma de determinar el ajuste del modelo construido es comparandolo contra el modelo
que produce el mejor ajuste posible. En estos modelos, el mejor ajuste se logra cuando el
modelo tiene tantos parametros como observaciones y se le conoce como modelo saturado.
Este modelo lo que hace es reproducir los valores observados, por lo que su ajuste es perfecto.
Si denotamos por ˜(β) el valor de la log-verosimilitud del modelo saturado y por (β) el
correspondiente valor del modelo propuesto, se define la devianza (algunas veces llamada
devianza residual) a la cantidad
D =2[˜(β)− (β)
]
que puede verse como una medida de distancia entre el modelo propuesto y el saturado.
• Cuando el modelo propuesto provee un buen ajuste, se espera que (β) este cercana a˜(β) . Es claro que ya que esta ultima cantidad es el supremo de todas las log-verosimiltudes
257
posibles, (β) no puede ser mayor que ella. Un valor ”grande” de esta devianza indica un
pobre ajuste del modelo propuesto.
• Suponiendo que el modelo es correcto y n es grande, la distribucion asintotica de esta
devianza es una Ji-cuadrada. En concreto
Da∼ χ2
(n−p)
por lo que el valor esperado de esta devianza es n-p.
En los modelos lineales generalizados esta devianza es
D =2φ[˜(β)− (β)
]
Comparacion de modelos
En la modelacion estadıstica estandar por lo general se tienen varios modelos que ajustan
de forma adecuada a nuestra informacion, por lo tanto, es necesario tener una forma para
compararlos y elegir el mejor entre ellos. Para hacer esta comparacion es necesario que los
modelos esten anidados, i.e., que uno de ellos sea un submodelo del otro.
Supongamos que tenemos dos modelos M0 y M1 con total de parametros p0 y p1, respec-
tivamente y p1 > p0 (lo que implica que M0 esta anidado en M1). Entonces, la menera de
comparar estos modelos es
2φ [` (M1)− `(M0)]a∼ χ2
(p1−p0)
con ` (M1) y `(M0) las respectivas log-verosimilitudes de los correspondientes modelos. Si
esta diferencia es estadısticamente significativa, podemos afirmar que las variables que tiene
M1 pero que no estan en M0 sirven para mejorar el ajuste del modelo. Por el contrario,
si esta diferencia no es estadısticamente significativa, entonces querra decir que el ajuste de
ambos modelos es similar, por lo tanto, atendiendo al principio de parsimonia, preferimos el
que tiene menos parametros, en este caso, M0.
258
Modelo Poisson de reservas
Terminaremos esta seccion con el modelo de Poisson, que se utiliza principalmente para el
numero de reclamaciones. Lo interesante en el modelo de Poisson es que conduce a las mis-
mas reservas del modelo Chain-Ladder. Fue Mack (1991), quien demostro que las reservas
Chain-Ladder son reservas producidas por un proceso de maxima verosimilitud del modelo
de Poisson.
Supuestos modelo Poisson
Existen parametros µ0, µ1, ..., µI > 0 y patrones γ0, γ1, ..., γJ > 0, tales que los valores incre-
mentales Xi,j son independientes y se distribuyen Poisson con
E [Xi,j] = µi · γj
para toda i ≤ I y j ≤ J , y∑J
j=0 γj = 1.
Es claro que si Xi,j son Poisson, entonces el numero total de reclamaciones acumuladas ocur-
ridas en el periodo i, Ci,J , tambien es Poisson, con
E [Ci,J ] = µi
Ya que µi es un parametro que representa el numero esperado de reclamaciones ocurridas en
el ano i, mientras que j define el patron de flujo de caja esperado en los diferentes periodos
de desarrollo j. Por otra parte tenemos que
E [Xi,j]
E [Xi,0]=γjγ0
que es independiente de i.
Lema. El modelo Poisson satisface los supuestos (1) del metodo Bornhuetter-Ferguson.
Dem
La independencia de los diferentes anos de reclamacion se sigue de la independencia de los
conteos Xi,j. Ademas, tenemos que E [Ci,0] = E [Xi,0] = µi · β0 con β0 = γ0, y
259
E [Ci,j+k|Ci,0, ..., Ci,j] = Ci,j +k∑`=1
E [Xi,j+`|Ci,0, ..., Ci,j]
= Ci,j + µi ·k∑`=1
γj+`
= Ci,j + µi · (βj+k − βj)
con βj =∑j
`=0 γ`. Que concluye la demostracion.
Para estimar los parametros (µi)i, (γj)j existen diferentes metodos, una posibilidad es utilizar
estimadores maximo verosımiles. La funcion de verosimilitud, obviamente con la informacion
observada, DI = Ci,j; i+ j ≤ I, j ≤ J, esta dada por
L (µ0, ..., µI , γ0, ...γj; DI) =∏i+j≤I
(e−µiγj · (µiγj)
Xi,j
Xi,j!
)
Como es costumbre, maximizaremos la log-verosimilitud asociada mediante el conjunto de
las ecuaciones de verosimilitud, desprendidas de igualar a cero las derivadas parciales sobre
cada uno de los, I + J + 2, total de parametros desconocidos µi y γj. En DI obtenemos que
(I−i)∧J∑j=0
µiγj =
(I−i)∧J∑j=0
Xi,j = Ci,(I−i)∧J
I−i∑j=0
µiγj =I−i∑j=0
Xi,j
para toda i ∈ 0, ..., I toda j ∈ 0, ..., J bajo la restriccion de que∑γj = 1. Este sistema
tiene solucion unica y proporciona los estimadores mle de µi y γj.
Con estos estimadores, el modelo Poisson para reservas se estima por
260
XPoii,j = E [Xi,j] = µiγj,
CPoii,j = E [Ci,J |DI ] = Ci,I−i +
J∑j=I−i+1
XPoii,j
Observese que
CPoii,j = Ci,I−i +
(1−
I−i∑j=0
γj
)· µi
por lo que los estimadores Poisson tiene la misma forma que los BF. Sin embargo, aquı
debemos estimar µi y γj mediante los datos.
261
Modelo Poisson sobredisperso
Ya hemos comentado que en datos reales, es muy comun que el modelo Poisson resulte sobre-
disperso, i.e., que φ >> 1. Definamos el modelo Poisson sobredisperso para calcular reservas
a partir de un triangulo de desarrollo.
Supuestos sobre el modelo Poisson sobredisperso
Existen parametros µ0, µ1, ..., µI > 0, patrones γ0, γ1, ..., γJ > 0 y φ, tales que los valores
incrementales Xi,j son independientes con distribucion
Xi,j
φ∼ Pois
(µiγjφ
)
Observe que
E [Xi,j] = E(φPois
(µiγjφ
))= φ · µiγj
φ= µiγj
V [Xi,j] = V(φPois
(µiγjφ
))= φ2 · µiγj
φ= φµiγj
que hace evidente el nombre del modelo: Poisson sobredisperso.
Varianzas y errores estandar de los estimadores Chain-Ladder
En el modelo Chain-Ladder solo presentamos la estimacion para la demanda esperada final,
por supuesto, tambien le gustarıa saber, la precision que tiene este estimador. Para medir
la precision de esta estimacion, consideramos los segundos momentos.
Supongamos que tenemos una variable aleatoria X y un conjunto de observaciones, D .
Supongamos que X es un estimador D −medible de E [X|D ].
Def. Error cuadratico medio de prediccion condicional. El error cuadratico medio de
prediccion condicional del etimador X esta definido por
MSEPX|D = E[(X −X
)2|D]
262
El MSEP condicional es una medida de distancia L2, que puede descomponerse en dos partes
MSEPX|D
(X)
= V (X) +(X − E [X|D ]
)2La primera de ellas llamada proceso de varianza (error estocastico), es decir, la varianza
inerherente al modelo estocastico (totalmente aleatorio que no puede eliminarse), y la se-
gunda conocida como el error de estimacion del parametro, que refleja la incertidumbre en
la estimacion de los parametros y de la esperanza, respectivamente. En general, este error
de estimacion se hace mas pequeno cuanto mas observaciones tenemos. Pero hay que tener
cuidado, en muchas situaciones practicas este error no desaparece por completo, ya que se
tratar de predecir los valores futuros con la ayuda de la informacion pasada, por lo que un
ligero cambio del modelo a traves del tiempo puede provocar muchos y serios problemas.
Reservas Tecnicas Especiales (Catastroficas)
Provisiones especiales determinadas y ordenadas por la S.H.C.P. para complementar y re-
forzar las reservas tradicionales o para corregir y prevenir desviaciones o insuficiencias de
caracter tecnico o financiero.
Riesgos Catastroficos
Fondo acumulativo que se integra con una parte de las primas de ciertas coberturas para
cubrir eventos catastroficos como los terremotos.
Contingencia/Prevision (Margen de Seguridad para desviaciones adversas)
Fondo acumulativo que se integra con una parte de las primas para cubrir desviaciones en
la “siniestralidad”.
263