39
Página | 1 Modelos de Series de Tiempo para Datos Enteros Carlos Felipe González López Asesor: María Elsa Correal Núñez Ph.D Universidad de los Andes Facultad de Ingeniería Departamento de Ingeniería Industrial Bogotá, Noviembre 2011

Modelos de Series de Tiempo para Datos Enteros Carlos

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 1

Modelos de Series de Tiempo para Datos Enteros

Carlos Felipe González López

Asesor: María Elsa Correal Núñez Ph.D

Universidad de los Andes Facultad de Ingeniería

Departamento de Ingeniería Industrial

Bogotá, Noviembre 2011

Page 2: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 2

Tabla de contenido

Introducción ........................................................................................................................................ 3

Modelos Integer-valued Autoregressive Moving Average.................................................................. 4

Simulaciones........................................................................................................................................ 9

Aplicación INAR (1) ............................................................................................................................ 21

Conclusiones ..................................................................................................................................... 26

ANEXOS ............................................................................................................................................. 28

Page 3: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 3

Introducción

Las series de tiempo son secuencias de observaciones que representan un proceso estocástico.

Para su análisis se hace el uso de los modelos ARMA, los cuales incorporan la información respecto

a la correlación entre las observaciones. Comúnmente estos modelos son utilizados para

desarrollar pronósticos.

Hay que tener en cuenta como son los errores en una serie de tiempo, conocidos como ruido

blanco, son variables aleatorias idénticamente distribuidas y no correlacionadas, con media cero y

varianza constante.

Los modelos ARMA se representan de la siguiente manera:

Los corresponden a los coeficientes que acompañan a la parte autorregresiva de la serie que

llegan hasta el orden p. Además los son las observaciones del proceso , i momentos del

tiempo atrás. Por otro lado están los cuales acompañan a la parte de promedios móviles, hasta

el orden q. De igual manera son los valores asociados al proceso del ruido blanco, i momentos

del tiempo atrás.

En muchas ocasiones existen procesos donde sus elementos de análisis solo pueden tomar valores

enteros positivos, además de que estos tienen una dependencia lineal a lo largo del tiempo. Para

estas ocasiones cuando se ha decidido desarrollar un análisis de series de tiempo se puede hacer

uso de los procesos Integer-valued Autoregressive (INAR) y moving average (INMA) introducidos

inicialmente por M.McKenzie, AA.Alzaid y M.Al-Osh. En la práctica se presentan con mucha

frecuencia series de tiempo con valores enteros, algunos casos son el número de accidentes de

tráfico diariamente en una ciudad, número de intoxicaciones o enfermedades mensuales entre

muchos otros. Sin embargo al tener valores enteros este supuesto deja de ser adecuado y es

necesario desarrollar un análisis particular.

Como extensión de los modelos ARMA, para datos enteros se han propuesto distintas opciones

para el análisis. Dentro de ellos se encuentra los modelos INAR (p) donde p representa el orden de

autocorrelación y los INMA (q) donde de nuevo q representa el orden de autocorrelación.

El objetivo principal de este trabajo es desarrollar una investigación acerca de cómo se extienden

los modelos ARMA a datos enteros, es decir por medio de los procesos INAR e INMA. Además de

comprender las características de la función de autocorrelación simple (FAS) y parcial (FAP)

utilizando diferentes parámetros iniciales en unas simulaciones. Para de esta manera aplicar

finalmente a un caso de cómo se desarrolla el análisis para procesos de este tipo, utilizando como

referencia las intoxicaciones por metanol notificadas ante el instituto nacional de salud.

Page 4: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 4

Modelos Integer-valued Autoregressive Moving Average

INAR (P)

La representación de este proceso se encuentra a continuación:

Estos son modelos de conteo debido al operador que acompaña a la variable durante el proceso,

conocido como el “thinning operator”. La función del operador es generar un sistema de conteo

de variables Bernoulli que con una probabilidad “a” toman el valor de 1 y se suman tantas

Bernoulli como magnitud de la variable a la cual se le aplica el operador. La representación de

cómo funciona el operador se muestra a continuación:

En la representación las son las variables Bernoulli que con una probabilidad “a” toman el valor

de 1, de lo contrario cero. Además hay que tener en cuenta que estas variables son

independientes entre sí y también son independientes respecto a momentos del tiempo, donde se

utilizara el “thinning operator”.

Por ende en la suma de variables dicotómicas lo que garantiza un resultado entero. Por

ejemplo si y :

Al final puede tomar diferentes valores con ciertas probabilidades como se muestra a

continuación:

En seguida se muestran las características específicas de los modelos de primer y segundo orden.

Page 5: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 5

INAR (1)

El proceso INAR (1) se representa de la siguiente manera:

Donde , además sería lo que en los modelos ARMA se considera como ruido blanco,

sin embargo en este caso es una secuencia de variables aleatorias discretas, no negativas, las

cuales son idénticas e independientemente distribuidas, donde su primer y segundo momento se

definen como λ> 0 (Jung & Tremayne, 2006). Otra condición que se presenta en el modelo es que

y son independientes en todo instante.

Una forma de entender el problema es ver a la variable como una población, entonces

serían los sobrevivientes de la población en un periodo anterior y finalmente son los miembros

nuevos que entran a esta (también es conocido como el proceso de innovación).

Algunas características referentes del modelo son que su valor esperado y varianza

incondicionales corresponden a lo siguiente después de generar la derivada de primer y segundo

orden:

De igual manera el valor esperado y la varianza condicionales se observan a continuación:

De igual manera que en un proceso AR (1) los coeficientes de autocorrelación se obtienen de la

siguiente manera:

En seguida haciendo referencia a la distribución de las variables que se presentan en el modelo, se

tiene que el proceso se distribuye Poisson con parámetro .

El proceso de innovación de igual manera se distribuye Poisson pero con parámetro (Jung &

Tremayne, 2006).

Al ver la representación del modelo de esta manera y la distribución de sus variables, se puede

concluir que al desarrollar un análisis de este tipo es similar a desarrollar el análisis con un proceso

Page 6: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 6

de Markov de orden 1, donde “a” representa la probabilidad con la que están relacionadas las

variable de un momento del tiempo al siguiente.

Al tener que las distribuciones se dan de la manera presentada anteriormente, tenemos que la

media se va a comportar de manera estable al igual que su varianza y covarianza, que son los

requisitos para que el proceso sea estacionario.

Estimación de los parámetros

En seguida se presenta como estimar tanto la probabilidad como la media de innovación, aunque

existen muchas formas de hacerlo, en el documento presente se realizara por medio de la

metodología de Yule-Walker.

En esta metodología la estimación de la probabilidad del proceso es el primer coeficiente de

autocorrelación, expresado a continuación:

Por otro lado la estimación del parámetro se basa en el valor esperado del proceso según su

distribución. Es decir se determina a partir de la ecuación:

INAR (2)

La representación de este proceso se muestra a continuación:

Algunas de las características del proceso respecto al INAR (1) se mantienen, tales como la

definición de y la manera en cómo se distribuye. De igual manera y son

independientes para todo momento del tiempo. También los parámetros y , pero

esta vez para que el proceso sea estacionario se requiere que (Jung & Tremayne,

Coherent forecasting in integer time series models, 2006).

Ahora respecto a la variable su valor esperado y varianza se presentan a continuación:

Page 7: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 7

De igual manera los coeficientes de autocorrelación se estiman de manera diferente, en seguida se

muestra como se inicializan los dos primero coeficientes y como se estimarían de ahí en adelante.

Estimación de los parámetros

En seguida se presenta como estimar tanto las probabilidades como la media de innovación en un

proceso INAR (2) , aunque existen muchas formas de hacerlo, en el documento presente se

realizara por medio de la metodología de Yule-Walker.

En esta metodología la estimación de las probabilidades del proceso pueden estimarse a partir de

los dos primeros coeficientes de autocorrelación, como se muestra a continuación:

Por otro lado la estimación del parámetro se basa en el valor esperado del proceso según su

distribución. Es decir se determina a partir de la ecuación:

Generalmente respecto al INAR (p) se tienen ciertas características específicas. Inicialmente las

características respecto al proceso de innovación ( se distribuyen Poisson con parámetro λ, de

igual manera es independiente en todo momento del tiempo. Por otro lado el valor esperado

y la varianza de son diferentes entre sí, por ende el proceso no tiene una distribución Poisson a

excepción del INAR (1) e INAR (2). Además de eso se presenta nuevas condiciones para que el

proceso sea estacionario (Bu & McCabe, 2008):

Primera Condición

Segunda Condición

Las propiedades de correlación del proceso deben ser idénticas a las del proceso AR (P).

Page 8: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 8

INMA (1)

La representación del modelo se muestra a continuación:

Donde , al igual que en los procesos mostrados anteriormente tiene una distribución

Poisson con parámetro λ. Para este caso el valor esperado y la varianza de se presentan a

continuación:

Por otro lado los coeficientes de autocorrelación tienen un comportamiento parecido al de un MA

(1) donde coeficiente de más de un orden son iguales a cero y su primer coeficiente no será mayor

a 0.5 (Jung & Tremayne, Binomial thinning models for integer time series, 2006).

Finalmente respecto a la distribución del proceso en sí es de igual manera Poisson con el

parámetro mostrado en seguida:

INMA (2)

La representación del modelo se muestra a continuación:

Algunas de las características del proceso respecto al INMA (1) se mantienen, tales como la

definición de y la manera en cómo se distribuye. También los parámetros y ,

además y son independientes entre sí.

Ahora respecto a la variable su valor esperado y varianza se presentan a continuación:

En seguida respecto a los coeficientes de autocorrelación, tienen un comportamiento similar al de

un MA (2) debido a que después del segundo orden todos los coeficientes toman el valor de cero.

La estimación se desarrollar de la siguiente manera:

Page 9: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 9

Simulaciones

Simulación INAR (1)

A continuación se mostrará cómo es el comportamiento de un proceso INAR (1) teniendo como

parámetros, diferentes valores de la probabilidad y de la media del proceso de innovación. Todas

las simulaciones se iniciaron a partir de la media teórica:

Teóricamente el modelos de INAR (1) tiene una FAS como la que se muestra en el gráfico a

continuación, donde el valor del primer coeficiente de autocorrelación correspondería a el valor

de la probabilidad a.

(Xycoon,

2011)

Como se puede observar los coeficientes de autocorrelación van disminuyendo hasta el momento

en el que se convierten en cero, por otro lado la FAP muestra como el primer coeficiente de

autocorrelación parcial es diferente de cero, mientras que el resto no. Teniendo en cuenta que

algo similar es lo que se espera en las simulaciones, en seguida se mostraran como son la FAS y

FAP para los distintos procesos simulados.

A continuación se presentan las gráficas de los procesos acompañados de sus FAS y FAP. En

seguida se muestran los procesos que tienen una probabilidad de 0.2 variando la media del

proceso de innovación ( ).

Page 10: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 10

Al observar los 4 procesos anteriores se observa un comportamiento de caminata aleatoria donde

el rango entre los cuales se encuentra el proceso, toma valores mayores a medida que el

aumenta, por otro lado vemos que al utilizar una probabilidad baja los datos generados en el

proceso no tienen una correlación entre sí. Esto se confirma al establecer la FAS y FAP de cada

proceso a continuación:

0

2

4

6

8

10

1800 1825 1850 1875 1900 1925 1950 1975 2000

SIMU1

0

2

4

6

8

10

12

1800 1825 1850 1875 1900 1925 1950 1975 2000

A02L4

0

4

8

12

16

20

1800 1825 1850 1875 1900 1925 1950 1975 2000

A02L6

0

4

8

12

16

20

1800 1825 1850 1875 1900 1925 1950 1975 2000

A02L8

A=0.2; λ=2 A=0.2; λ=4

A=0.2; λ=6 A=0.2; λ=8

Page 11: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 11

Estas dos primeras tablas corresponden a los procesos de medias 2 (izquierda) y 4 (derecha), en

ambos vemos que no existe una autocorrelación fuerte, y aunque en el primero el coeficiente de

orden 1 es diferente de cero, en el segundo ninguno de los coeficientes es significativo.

Confirmando lo que se había establecido inicialmente respecto a que los procesos parecen una

caminata aleatoria. En seguida se muestra la FAS y FAP de los procesos con medias 6 (izquierda) y

8 (derecha) donde se obtiene el mismo comportamiento anterior.

Page 12: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 12

Como se pudo observar en la simulación anterior el hecho de variar la media del proceso de

innovación no afecta la estructura de la FAS ni de la FAP. Por ende en las siguientes probabilidades

solo se mostrara la simulación donde la media tiene un valor de 2. De igual manera en los anexos

se mostraran las simulaciones para el resto de las medias del proceso de innovación.

Ahora se tomará una probabilidad más alta de 0.4 con el fin de observar en qué medida cambian

los resultados:

De igual manera a como sucedió cuando se tenía una probabilidad de 0.2, el rango de los datos

toma valores mayores a medida que el aumenta en este caso tenemos un . A continuación

se presentan la FAS y la FAP del proceso.

0

2

4

6

8

10

1800 1825 1850 1875 1900 1925 1950 1975 2000

A04L2A=0.4; λ=2

Page 13: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 13

FAS Y FAP Teóricas

Al observar la tabla anterior observamos cómo este proceso tiene un comportamiento más

parecido a un AR (1) como se muestra en las gráficas contiguas que es lo que teóricamente se

esperará de este tipo de procesos. Donde el primer valor de la FAP es diferente de cero y los

demás no. Al observar los otros dos procesos correspondientes a esta probabilidad tenemos lo

siguiente donde se ve el mismo comportamiento de la FAS y la FAP de los procesos mostrados

anteriormente.

De nuevo se aumentará la probabilidad esta vez a 0.6 con el fin de establecer si se presentan

cambios interesantes en la estructura de la FAS y FAP.

Del gráfico del proceso no se puede concluir mayor cosa, además de lo relacionado con el rango

de los datos y la media del proceso de innovación nombrado anteriormente. Por ende se prosigue

a observar las FAS y FAP de cada proceso teniendo en cuenta que la media del proceso de

innovación es 2.

0

2

4

6

8

10

12

14

1800 1825 1850 1875 1900 1925 1950 1975 2000

A06L2A=0.6; λ=2

0.4

Page 14: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 14

FAS y FAP Teóricas

En estos dos procesos se ve mucho más marcado la FAS y FAP de un AR(1) teóricamente a pesar

de que se presenta una anomalía respecto a los coeficientes de orden 29 a 32, sin embargo la FAP

del proceso indica claramente un comportamiento autorregresivo de orden 1.

Por último se tendrá en cuenta una probabilidad de 0.8. A continuación se muestra el gráfico de

uno del proceso simulado donde la media del proceso de innovación tiene un valor de 2.

Con la serie del gráfico anterior podemos ver como el hecho de tener una probabilidad alta

permite que se den ciertos picos en los procesos. De igual manera a los procesos de las

probabilidades anteriores el rango de los datos toma valores mayores a medida que el aumenta.

En seguida se muestran las FAS y las FAP del proceso de media 2.

0

4

8

12

16

20

1800 1825 1850 1875 1900 1925 1950 1975 2000

A08L2A=0.8; λ=2

0.6

Page 15: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 15

FAS y FAP Teóricas

Respecto al proceso se observa una FAS de un AR (1), donde se ven una similitud muy clara éntrela

estructura de la FAS y FAP de la simulación desarrollada y la FAS y FAP teóricas.

Finalmente se pudo observar que los procesos INAR (1) tienen las características de los procesos

AR (1), a excepción de los momentos en que el proceso tenga una probabilidad muy baja, ya que

en estos casos parece presentarse un comportamiento de caminata aleatoria. Por otro lado se

puede establecer que el rango de los datos será el que nos determinará que tan grande será el

valor de la media de innovación, debido a que siempre entre mayor era mayores fueron los

valores que tomaban los datos. De igual manera entre mayor sea la probabilidad, se genera mayor

cantidad de picos dentro de las gráficas de los procesos.

Simulación INMA (1)

En seguida se presenta una simulación de un proceso INMA (1), evaluando diferentes parámetros

respecto a la probabilidad y a la media del proceso de innovación. Además cada una de las

simulaciones se inicia a partir de la media teórica que se muestra a continuación:

Teóricamente el modelos de INMA (1) tiene una FAS como la que se muestra en el gráfico a

continuación, donde el valor del primer coeficiente de autocorrelación es el único que tiene un

valor diferente de cero.

0.8

Page 16: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 16

(Xycoon, 2011)

Como se puede observar los coeficientes de autocorrelación parcial van disminuyendo hasta el

momento en el que se convierten en cero, por otro lado la FAP muestra como el primer

coeficiente de autocorrelación parcial es diferente de cero, mientras que el resto no. Teniendo en

cuenta que algo similar es lo que se espera en las simulaciones, en seguida se mostraran como son

la FAS y FAP para los distintos procesos simulados.

Inicialmente se estableció como probabilidad un valor de 0.2, variando la media del proceso de

innovación ( ). A continuación se muestran los gráficos de los procesos siguiendo la

misma notación presentada en la simulación anterior.

Al comparar los gráficos de estos procesos con los simulados en el INAR (1) teniendo en cuenta la

misma probabilidad, vemos que no existe una diferencia marcado, lo único que se presenta

0

1

2

3

4

5

6

7

8

1800 1825 1850 1875 1900 1925 1950 1975 2000

A02L2

0

2

4

6

8

10

12

14

1800 1825 1850 1875 1900 1925 1950 1975 2000

A02L4

0

2

4

6

8

10

12

14

16

18

1800 1825 1850 1875 1900 1925 1950 1975 2000

A02L6

0

4

8

12

16

20

24

1800 1825 1850 1875 1900 1925 1950 1975 2000

A02L8

A=0.2; λ=2 A=0.2; λ=4

A=0.2; λ=6 A=0.2; λ=8

Page 17: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 17

parecido es el rango de los valores del proceso, donde a medida que la media del proceso de

innovación aumenta, el rango de valores tiene una magnitud mayor. Por otro lado al ver los

gráficos y al ser tan similares a la simulación pasada parecería que los procesos corresponden a un

ruido blanco, esto se comprobará a partir de la FAS y la FAP mostrados a continuación:

A partir de las tablas anteriores vemos como el primer proceso en el lado izquierdo (probabilidad

0.2, media de innovación 2) corresponde a un ruido blanco, mientras que el segundo (probabilidad

0.2, media de innovación 4) tiene un estructura que no se podría definir propiamente como un

INMA (1), incluso se podría llegar a confundir con un INAR (1).

Page 18: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 18

A partir de los correlogramas anteriores correspondientes los procesos con probabilidad de 0.2 y

media de innovación 6 (izquierda) y 8 (derecha), se puede establecer que se generaron ruidos

blancos, como se había supuesto inicialmente con los gráficos. Por lo anterior podemos concluir

que tanto en los procesos INAR (1) como INMA (1) si la probabilidad asociada al modelos es muy

pequeña es debido a que el proceso seguramente tiene un comportamiento de caminata

aleatoria, donde sus correlogramas solo muestran ruido blanco.

Al igual a como sucedió en los procesos del INAR (1), en estos procesos la media de innovación no

afecta la estructura de la FAS, ni de la FAP. Por ende en las simulaciones mostradas a continuación

solo presentara los procesos donde la media de innovación es 2, el resto de las simulaciones se

encuentran en los anexos.

En seguida se mostraran los resultados al evaluar una probabilidad de 0.4.

0

1

2

3

4

5

6

7

8

9

1800 1825 1850 1875 1900 1925 1950 1975 2000

A04L2A=0.4; λ=2

Page 19: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 19

Respecto al gráfico del proceso mostrado anteriormente, tan solo se puede concluir que

nuevamente el rango depende de la media de innovación y entre más grande es está, la magnitud

de los valores del rango también es mayor. Por ende se determinaron la FAS y FAP del proceso

para establecer como es su estructura.

FAS y FAP Teóricas

El correlograma presentado corresponden a un proceso con media de innovación 2, el cual ya no

es un proceso de caminata aleatoria, sin embargo la estructura de su FAS y FAP no reflejan una

estructura totalmente similar a un MA (1) como se observa al compararla con los correlogramas

teóricos que se muestran al lado derecho. De hecho no tiene una estructura bien definida.

En seguida se evaluó una probabilidad de 0.6, tomando para la media del proceso de innovación

de 2.

0

1

2

3

4

5

6

7

8

9

1800 1825 1850 1875 1900 1925 1950 1975 2000

A06L2A=0.6; λ=2

0.2

Page 20: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 20

En el gráfico anterior se presenta que el proceso está alrededor de una media y esta va

aumentando a medida que la media de innovación es mayor.

En seguida se muestra la estructura de la FAS y FAP de los procesos anteriores.

FAS y FAP Teóricas

En el correlograma, el cual corresponde al proceso de media 2, se puede observar de mejor

manera la estructura de un MA (1) en la FAS donde el primer coeficiente de correlación es

diferente de cero y los demás no, como se observa sucede de la misma manera en la FAS Teórica

mostrada al lado derecho superior. Por lo cual se puede establecer que a medida que la

probabilidad aumenta la estructura de los correlogramas es más parecida a las teóricas de los

modelos ARMA.

Por último se evaluó una probabilidad de 0.8 teniendo en cuenta un valor de 2 para la media de

innovación, obteniendo el siguiente resultado.

0

2

4

6

8

10

1800 1825 1850 1875 1900 1925 1950 1975 2000

A08L2A=0.8; λ=2

0.3

Page 21: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 21

De igual manera a como sucedió con los procesos de distintas probabilidades la única diferencia

entre los gráficos es la media sobre la cual están los datos, la cual es mayor a medida que aumenta

la media del proceso de innovación.

FAS y FAP Teóricas

En seguida respecto al correlograma, que corresponde a la media de 2, se puede observar una

estructura de la FAS y FAP correspondientes a un proceso MA (1), como se puede observar en la

teóricas mostradas al lado derecho.

Finalmente se puede establecer que la media de innovación al igual que en procesos INAR,

determinan el rango sobre el cual se presentan los datos y a medida que esta sea mayor, la

magnitud de los valores dentro del rango también es mayor. Por otro lado cuando se tienen

probabilidades muy bajas en los parámetros es porque los procesos seguramente se comportan

como una caminata aleatoria, pero cuando estas comienzan a incrementarse la estructura de la

FAS y la FAP de los procesos se asemeja en mayor manera a los modelos ARMA.

Aplicación INAR (1)

A continuación se presentara una aplicación del modelo INAR (1), para las intoxicaciones de

metanol reportadas ante el Instituto Nacional de Salud en Colombia. Los datos fueron tomados del

Instituto Nacional de Salud, los cuales tienen una frecuencia semanal desde el 2009 hasta la

semana 36 del 2011.

0.4

Page 22: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 22

Uno de los tipos de intoxicaciones más comunes son las generadas por el metanol, el cual es un

disolvente universal que tiene usos tanto en el campo industrial como en diversos productos

domésticos. Algunos ejemplos de sus usos son como limpiavidrios, tintura de zapatos, solvente

para laca y barnices, entre otros.

Este tipo de intoxicaciones se puede dar por vía oral, respiratoria y dérmica, aunque la dérmica no

genera una intoxicación aguda, por las otras vías se pueden presentar intoxicaciones tan crónicas

que pueden llevar incluso a la muerte. Lo más común cuando se genera la intoxicación por vía

respiratoria es que se generen bronquitis crónicas. Por otro lado en muchas ocasiones se ha usado

este tipo de alcohol para degradar soluciones de alcohol etílico, lo que presenta una gran cantidad

de intoxicaciones por bebidas alcohólicas, siendo estas muy peligrosas ya que con tan solo

consumir 15 ml con una concentración del 40% se puede causar la muerte (INS, 2010).

En seguida se muestra a lo largo del 2009 y 2010 la cantidad de este tipo de intoxicaciones que se

notificaron ante el Instituto Nacional de Salud en toda Colombia.

Este proceso se modelará como un INAR (1)

Donde , además sería lo que en los modelos ARMA se considera como ruido blanco,

sin embargo en este caso es una secuencia de variables aleatorias discretas, no negativas, las

cuales son idénticas e independientemente distribuidas, donde su primer y segundo momento se

definen como λ> 0 (Jung & Tremayne, 2006). Otra condición que se presenta en el modelo es que

y son independientes en todo momento.

En seguida se muestra una descripción de los datos. Junto a un histograma con las frecuencias del

número de intoxicaciones semanalmente.

0

2

4

6

8

10

12

I II III IV I II III IV

2009 2010

METANOL

Page 23: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 23

En seguida se muestra la FAS y FAP del proceso donde se evidencia una estructura similar a lo que

en la simulación del proceso INAR (1) con probabilidad de 0.4 y media de innovación 2.

Por ende después de ver que la función de autocorrelación es similar a la teórica se estimaron los

parámetros y se valido el modelo para las primeras 36 semanas del 2011 obteniendo el siguiente

resultado:

Al estimar los parámetros por medio del método de Yule-Walker presentado anteriormente en la

descripción de los modelos INAR (1), se obtuvieron los siguientes resultados muy similares a lo que

se esperaba al observar la FAS y FAP del proceso.

Media 3,671875E rror típico 0,169398

Mediana 3Moda 2

D esviación estándar 2,34724761V arianza de la muestra 5,50957134

C urtos is -0,05018062C oeficiente de as imetría 0,77389594

R ango 11Mínimo 0

Máximo 11

Intoxicaciones Metanol

Page 24: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 24

Respecto a la validación se obtuvo la siguiente gráfica donde el proceso denotado de azul

representa el proceso real y el rojo muestran los valores obtenidos para la validación teniendo en

cuenta los parámetros estimados anteriormente.

Aunque existen dos puntos de la validación que no son acertados, el resto son muy parecidos a los

valores reales que se han presentado a lo largo del año. De igual manera se realizo una validación

de los residuos la cual se muestra a continuación.

Se necesita que los residuos sean un ruido blanco, si no lo son quiere decir que existe

parte del proceso que no es explicada por el modelo establecido. Al ver el correlograma

de los residuos se puede observar que aunque los 2 primeros términos se rechaza la

hipótesis nula la cual se prueba por medio del estadístico Q, esto se

P arámetro Valor

a 0,3207

λ 2,5864

0

2

4

6

8

10

12

8 22 5 19 5 19 2 16 30 14 28 11 25 9 23 6 20

2011m2 2011m3 2011m4 2011m5 2011m6 2011m7 2011m8

R2011 P2011

Page 25: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 25

puede deber a la poca información de los primeros coeficientes, sin embargo después no

se vuelve a rechazar y efectivamente los residuos se comportan como un ruido blanco.

Los pronósticos desarrollados corresponden a los denominados como estáticos, que

consisten en tomar como información los valores reales correspondientes a la serie que se

está analizando. Estos se definen de la siguiente manera:

Finalmente al establecer los pronósticos para las últimas semanas del año y las primeras

del 2012, se obtuvieron los siguientes resultados:

Finalmente el proceso desde el 2009 incluyendo los pronósticos se mostraría de la

siguiente manera:

Año S emana P ronóstico2011 37 32011 38 42011 39 62011 40 22011 41 52011 42 12011 43 72011 44 52011 45 42011 46 52011 47 62011 48 42011 49 52011 50 3

Año S emana P ronóstico2011 51 2

2011 52 10

2012 1 8

2012 2 72012 3 3

2012 4 5

2012 5 7

2012 6 92012 7 5

2012 8 4

2012 9 2

2012 10 3

2012 11 62012 12 3

2012 13 2

2012 14 5

Page 26: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 26

Conclusiones

Finalmente se pueden establecer diferentes conclusiones acerca de los modelos INAR e

INMA, primero respecto a la media de innovación, como estos modelos se aplican a

procesos donde su rango sea bajo, se esperaría que la media tome valores bajos de igual

manera como sucedió al estimarla en la aplicación mostrada anteriormente, ya que esta

es la que determina el rango de valores dentro del cual se encuentra el proceso. Por otro

lado en las simulaciones al tener probabilidades muy bajas los procesos según el

correlograma tienden a tener un comportamiento de caminata aleatoria. Sin embargo

cuando estas probabilidades son más altas la estructura de los correlogramas se parece a

la de los modelos ARMA, es decir el modelo INAR (1) tiene una estructura similar a la de

un AR (1), de igual manera sucede con el MA (1).

De igual manera al considerar el modelo INAR (1) y desarrollar un análisis de un proceso

por medio de este, es lo mismo a utilizar un modelo de Markov de orden 1, debido a la

forma como establece el conteo para generar los pronósticos.

Por otro lado estos modelos son muy útiles respecto al análisis de series de tiempo que

trabajen con datos enteros, debido a la facilidad que presentan respetando el tipo de los

datos. Esto se pudo comprobar en la aplicación de las intoxicaciones de metanol las cuales

se espera se mantengan durante los próximos 2 trimestre en un rango muy parecido al

que se viene manejando.

0

2

4

6

8

10

12

I II III IV I II III IV I II III IV I II

2009 2010 2011 2012

PROCESO PRONOSTICOS

Page 27: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 27

Bibliografía Bu, R., & McCabe, B. (2008). Model selection, estimation and forecasting in INAR(p)

models: A likelihood-based Markov Chain approach. International Journal of Forecasting

24 , 151-162.

INS. (2010). Protocolo de vigilancia y control de intoxicaciones por metanol. Bogotá.

Jung, R. C., & Tremayne, A. (2006). Binomial thinning models for integer time series.

Statistical Modelling , 81-96.

Jung, R. C., & Tremayne, A. (2006). Coherent forecasting in integer time series models.

International Journal of Forecasting 22 , 223-238.

Jung, R. C., Kukuk, M., & Liesenfeld, R. (2006). Time series of count data: modeling,

estimation and diagnostics. Computational Statistics & Data Analysis 51 , 2350 – 2364.

Wei, C. H. (2008). Serial dependence and regression of Poisson INARMA models. Journal of

Statistical Planning and Inference 138 , 2975 – 2990.

Wei, W. W. (2006). Time Series Analysis, Univariate and Multivariate Methods. Pearson.

Xycoon. (2011). Statistics - Econometrics - Forecasting. Recuperado el 31 de Octubre de

2011, de Office for Research Development and Education: www.xycoon.com/

Page 28: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 28

ANEXOS

Simulación INAR

Simulación probabilidad 0.4 y media del proceso de innovación de valores 4, 6 y 8.

0

4

8

12

16

20

1800 1825 1850 1875 1900 1925 1950 1975 2000

A04L4

0

4

8

12

16

20

24

1800 1825 1850 1875 1900 1925 1950 1975 2000

A04L6

4

8

12

16

20

24

28

1800 1825 1850 1875 1900 1925 1950 1975 2000

A04L8

Page 29: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 29

Simulación probabilidad 0.6 y media del proceso de innovación de valores 4, 6 y 8.

0

4

8

12

16

20

24

1800 1825 1850 1875 1900 1925 1950 1975 2000

A06L4

0

4

8

12

16

20

24

28

1800 1825 1850 1875 1900 1925 1950 1975 2000

A06L6

10

15

20

25

30

35

1800 1825 1850 1875 1900 1925 1950 1975 2000

A06L8

Page 30: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 30

Page 31: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 31

Simulación probabilidad 0.8 y media del proceso de innovación de valores 4, 6 y 8.

8

12

16

20

24

28

32

1800 1825 1850 1875 1900 1925 1950 1975 2000

A08L4

16

20

24

28

32

36

40

44

1800 1825 1850 1875 1900 1925 1950 1975 2000

A08L6

24

28

32

36

40

44

48

52

56

60

64

1800 1825 1850 1875 1900 1925 1950 1975 2000

A08L8

Page 32: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 32

Simulación INMA (1)

Simulación probabilidad 0.4 y media del proceso de innovación de valores 4, 6 y 8.

0

2

4

6

8

10

12

14

16

1800 1825 1850 1875 1900 1925 1950 1975 2000

A04L4

0

2

4

6

8

10

12

14

16

1800 1825 1850 1875 1900 1925 1950 1975 2000

A04L6

0

4

8

12

16

20

24

1800 1825 1850 1875 1900 1925 1950 1975 2000

A04L8

Page 33: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 33

Page 34: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 34

Simulación probabilidad 0.6 y media del proceso de innovación de valores 4, 6 y 8.

0

2

4

6

8

10

12

14

1800 1825 1850 1875 1900 1925 1950 1975 2000

A06L4

0

4

8

12

16

20

1800 1825 1850 1875 1900 1925 1950 1975 2000

A06L6

0

4

8

12

16

20

24

1800 1825 1850 1875 1900 1925 1950 1975 2000

A06L8

Page 35: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 35

Simulación probabilidad 0.8 y media del proceso de innovación de valores 4, 6 y 8.

0

2

4

6

8

10

12

14

16

1800 1825 1850 1875 1900 1925 1950 1975 2000

A08L4

4

8

12

16

20

24

1800 1825 1850 1875 1900 1925 1950 1975 2000

A08L6

4

8

12

16

20

24

28

1800 1825 1850 1875 1900 1925 1950 1975 2000

A08L8

Page 36: Modelos de Series de Tiempo para Datos Enteros Carlos

Página | 36

Page 37: Modelos de Series de Tiempo para Datos Enteros Carlos
Page 38: Modelos de Series de Tiempo para Datos Enteros Carlos
Page 39: Modelos de Series de Tiempo para Datos Enteros Carlos