71
Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste Marisol Barrón Bastida Eric Moreno Quintero Diana Laura Vega Pérez Publicación Técnica No. 627 Sanfandila, Qro. 2021 ISSN 0188-7297

Ampliación de funcionalidad de la aplicación ABAL 0.1 para

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste

Marisol Barrón Bastida Eric Moreno Quintero

Diana Laura Vega Pérez

Publicación Técnica No. 627

Sanfandila, Qro. 2021

ISSN 0188-7297

Page 2: Ampliación de funcionalidad de la aplicación ABAL 0.1 para
Page 3: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Esta investigación fue realizada en la Coordinación de Integración del Transporte del Instituto Mexicano del Transporte, por la Mtra. Marisol Barrón Bastida, el Dr. Eric Moreno Quintero y la Lic. Laura Vega Pérez.

Esta investigación es el producto final del proyecto de investigación interna TI 03/20 Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

Se agradece la revisión y aportaciones del Dr. Carlos Martner Peyrelongue, coordinador de Transporte Integrado y Logística del IMT, cuyas observaciones mejoraron la calidad de este documento.

Se reconoce también el apoyo brindado por el Laboratorio Nacional de Sistemas de Transporte y Logística (SiT-LOG Lab), cuyas capacidades tecnológicas facilitaron el desarrollo de la aplicación, así como su difusión en el sitio web del SiT-LOG Lab.

Page 4: Ampliación de funcionalidad de la aplicación ABAL 0.1 para
Page 5: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Contenido

Página

Índice de figuras ...................................................................................................... v

Índice de tablas ...................................................................................................... vii

Sinopsis ................................................................................................................... ix

Abstract ................................................................................................................... xi

Resumen ejecutivo ................................................................................................ xiii

Introducción ............................................................................................................. 1

1. Antecedentes ............................................................................................. 3

2. Desarrollo de nuevas funcionalidades de ABAL ........................................ 5

2.1 Módulo de gráficas Q-Q y P-P ................................................................ 6

2.2 Módulo distribución Logística .................................................................. 7

2.3 Módulo distribución Logarítmica ............................................................. 9

2.4 Módulo distribución Gumbel .................................................................. 11

2.5 Desarrollo de rutinas de optimización ................................................... 13

2.6 Módulo gráfico para comparar distribuciones ....................................... 15

2.7 Despliegue de nuevas funcionalidades de ABAL .................................. 16

3. Otras distribuciones de probabilidad ........................................................ 21

3.1 Distribución Logarítmica........................................................................ 21

3.2 Distribución Logística ............................................................................ 23

3.3 Distribución Gumbel .............................................................................. 24

4. La estimación de máxima verosimilitud .................................................... 27

4.1 Distribución Logarítmica........................................................................ 28

4.2 Distribución Weibull .............................................................................. 29

4.3 Distribución Logística ............................................................................ 31

4.4 Distribución de Gumbel ......................................................................... 32

Page 6: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

iv

4.5 Distribución Gamma ............................................................................. 35

5. Ejemplos de uso de ABAL con datos reales ............................................ 39

5.1 Ejemplo de la distribución Logarítmica ................................................. 39

5.2 Ejemplo de la distribución Logística ...................................................... 41

6. Resultados y conclusiones ....................................................................... 47

Bibliografía ............................................................................................................ 51

Page 7: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

v

Índice de figuras

Figura 2.1 Diagrama de caso de uso: modelado de gráficas Q-Q y P-P. ................ 7

Figura 2.2 Diagrama de caso de uso de la distribución Logística. .......................... 9

Figura 2.3 Diagrama de caso de uso de la distribución Logarítmica. .................... 11

Figura 2.4 Diagrama de caso de uso de la distribución Gumbel. .......................... 13

Figura 2.5 Diagrama de caso de uso de la distribución Weibull. ........................... 14

Figura 2.6 Diagrama de caso de uso de la distribución Gamma. .......................... 15

Figura 2.7 Diagrama de caso de uso de comparación de distribuciones. ............. 16

Figura 2.8 Vista de la distribución Logística, Logarítmica y Gumbel. .................... 17

Figura 2.9 Vista de opciones de gráficas Q-Q y P-P. ............................................ 17

Figura 2.10 Vista de las gráficas Q-Q y P-P para una distribución Uniforme. ....... 17

Figura 2.11 Vista de las gráficas Q-Q y P-P para una distribución Normal. .......... 18

Figura 2.12 Vista de las gráficas Q-Q y P-P para una distribución Exponencial. .. 18

Figura 2.13 Vista de las gráficas Q-Q y P-P para una distribución Lognormal. ..... 18

Figura 2.14 Vista de las gráficas Q-Q y P-P para una distribución Weibull. .......... 19

Figura 2.15 Vista de las gráficas Q-Q y P-P para una distribución Gamma. ......... 19

Figura 2.16 Vista de las gráficas de comparación de distribuciones. .................... 20

Figura 3.1 Función de probabilidad Logarítmica. .................................................. 22

Figura 3.2 Densidad de probabilidad Logística. .................................................... 24

Figura 3.3 Densidad de probabilidad Gumbel. ...................................................... 25

Figura 4.1 Aproximación gráfica al parámetro θ. ................................................... 28

Figura 4.2 Estimación del parámetro θ con Solver de Excel. ................................ 29

Figura 4.3 Estimación de parámetros Weibull λ,k con Solver de Excel. ............... 30

Page 8: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

vi

Figura 4.4 Solución MLE de parámetros Weibull λ,k con Solver de Excel. .......... 30

Figura 4.5 Estimación de parámetros a,b de la distribución Logística. .................. 31

Figura 4.6 Parámetros de máxima verosimilitud a,b en distribución Logística. ..... 32

Figura 4.7 Aproximación gráfica al parámetro b Gumbel. ..................................... 34

Figura 4.8 Estimación de parámetros a,b de la distribución Gumbel. ................... 34

Figura 4.9 Parámetros de máxima verosimilitud a,b en distribución Gumbel. ....... 35

Figura 4.10 Estimación de parámetros α,β de la distribución Gamma. ................. 36

Figura 4.11 Estimación de parámetros α,β de la distribución Gamma. ................. 37

Figura 4.12 Solución de Solver. ............................................................................ 37

Figura 5.1 Prueba Ji-cuadrada para distrib. Logarítmica. ...................................... 40

Figura 5.2 Prueba Histograma de datos y ajuste de Logarítmica θ = 0.55263...... 41

Figura 5.3 Estimación de parámetros a, b de la Logística. ................................... 42

Figura 5.4 Gráfica Q-Q de datos de exportación de algodón ajustados a una distribución Logística. ............................................................................................ 43

Figura 5.5 Estimación de parámetros a, b de la Gumbel. .................................... 44

Figura 5.6 Gráfica Q-Q de datos de daños materiales en accidentes carreteros ajustados a una distribución Gumbel. ................................................................... 45

Figura 6.1 Enfatizar la categoría del eje. ............................................................... 48

Figura 6.2 Diagrama de pasos. ............................................................................. 48

Page 9: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

vii

Índice de tablas

Tabla 1.1 Distribuciones y tests ............................................................................... 4

Tabla 2.1 Requerimientos de interfaz de gráficos Q-Q y P-P. ................................. 6

Tabla 2.2 Requerimientos funcionales de gráficos Q-Q y P-P. ............................... 6

Tabla 2.3 Requerimientos de interfaz de la distribución Logística. .......................... 7

Tabla 2.4 Requerimientos funcionales de la distribución Logística. ........................ 8

Tabla 2.5 Requerimiento de interfaz de la distribución Logarítmica. ....................... 9

Tabla 2.6 Requerimientos funcionales de la distribución Logarítmica. .................. 10

Tabla 2.7 Requerimientos de interfaz de la distribución Gumbel. ......................... 11

Tabla 2.8 Requerimientos funcionales de la distribución Gumbel. ........................ 12

Tabla 2.9 Requerimientos funcionales de la distribución Weibull. ......................... 13

Tabla 2.10 Requerimientos funcionales de la distribución Gamma. ...................... 14

Tabla 2.11 Requerimientos de interfaz de gráficos para la comparación de distribuciones. ....................................................................................................... 15

Tabla 5.1 Núm. de tripulantes de vehículos utilitarios. Estación 246 “Playas de Tijuana” EECAN 2010. .......................................................................................... 39

Tabla 5.2 Exportación de algodón a EUA por Laredo, 2019 (tons). ...................... 41

Tabla 5.3 Daños materiales (miles de dólares) por accidentes en carreteras federales por estado en 2018. ............................................................................... 43

Page 10: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

viii

Page 11: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

ix

Sinopsis

Este trabajo presenta las nuevas funcionalidades de ABAL (Aplicación para Bondad de Ajuste en Línea). Estas incluyen nuevas distribuciones de probabilidad y la utilización del método de máxima verosimilitud (MLE) para la estimación de parámetros, para reemplazar los casos tratados con el método de momentos en la primera versión de ABAL. La estimación MLE utiliza procedimientos de optimización no-lineal los cuales son explicados en este trabajo. Además, se incorporaron funciones gráficas como: gráficas Q-Q, P-P y comparación de distribuciones.

Con estas nuevas funciones, el usuario tendrá una variedad de funciones para visualizar y analizar sus pruebas estadísticas, y con ello decidir si su muestra de datos puede representarse adecuadamente por alguna ley de probabilidad elegida. Se espera que los comentarios recibidos por los usuarios enriquezcan y mejoren la funcionalidad de ABAL.

Para el desarrollo de las nuevas funcionalidades se usaron las librerías: Seaborn, Statsmodels, Bokeh y Matplotlib. Dichas funciones se adicionaron a la sección de ayuda de ABAL, actualmente disponible en la dirección: http://abal.imt.mx/

Page 12: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

x

Page 13: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

xi

Abstract

This work presents the new functions of ABAL (Application for Goodness of Fit Online). These include news probability distributions and maximum likelihood estimation of parameters in order to replace the cases using the method of moments in the first version of ABAL. MLE estimation uses non-linear procedures, explained in this work. In addition, graphical functions such as: Q-Q graphs, P-P graphs, and comparison of distributions were incorporated.

With these new features, the user will have a variety of functions to visualize and analyze his(her) statistical tests, and thereby decide if his(her) data sample can be adequately represented by some chosen probability law. Feedback from users is expected to enrich and improve ABAL's functionality.

For the development of the new functionalities, the libraries: Seaborn, Statsmodels, Bokeh and Matplotlib were used. ABAL is available at the address: http://abal.imt.mx/.

Page 14: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

xii

Page 15: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

xiii

Resumen ejecutivo

Este trabajo presenta el desarrollo de nuevas funcionalidades de ABAL, aplicación informática en línea que realiza pruebas de bondad de ajuste que se complementan con una variedad de gráficos para la visualización y análisis de los datos de entrada como: gráficos Q-Q, P-P y comparación de distribuciones.

Las pruebas de bondad de ajuste de ABAL se desarrollaron con el método de máxima verosimilitud para estimar los parámetros, tanto para las nuevas funciones de probabilidad agregadas como para las que usaban el método de momentos en la primera versión de ABAL. El método de máxima verosimilitud es más preciso y estable numéricamente que el método de momentos y permite decidir mejor si un modelo probabilístico es adecuado dadas las observaciones del usuario.

En el capítulo 1 “Antecedentes” se mencionan los trabajos previos realizados en el desarrollo de la aplicación ABAL, como una etapa subsecuente de la Publicación Técnica No. 545 “Modelos de probabilidad en transporte e ingeniería. Usos comunes y ajuste de datos” y la Publicación Técnica No. 577 “Aplicación Informática para pruebas estadísticas de bondad de ajuste”. Se describen las distribuciones y pruebas de ajuste disponibles, así como los métodos utilizados para su desarrollo.

El capítulo 2, “Desarrollo de nuevas funcionalidades de ABAL”, describe el desarrollo de las nuevas características y la definición de sus requerimientos integrados en la aplicación. Estos se describen a través del modelado de diagramas UML (Lenguaje Unificado de Modelado). Así mismo, se muestra el prototipo de diseño de las gráficas incorporadas.

En el capítulo 3, “Otras distribuciones de probabilidad”, se describen las tres distribuciones que fueron agregadas a ABAL, estas son: Logarítmica, Logística y Gumbel. Esta descripción incluye: el cálculo de los parámetros a utilizar, su función de probabilidad, su uso en trabajos de investigación y una gráfica como ejemplo.

En el capítulo 4 “La estimación de máxima verosimilitud”, se muestra el desarrollo de estimadores de máxima verosimilitud para las distribuciones de ABAL y los planteamientos de programación no-lineal requeridos en cada caso, así como su solución. Las distribuciones que se incluyen son Logarítmica, Weibull, Logística, Gumbel y Gamma.

En el capítulo 5, “Ejemplos de uso de ABAL con datos reales”, se muestran algunos casos con datos reales de distintas fuentes para ejemplificar nuevas distribuciones que se agregaron a ABAL, como la distribución Logarítmica del tipo discreto y las distribuciones continuas Logística y Gumbel.

Page 16: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

xiv

El capítulo 6 “Resultados y conclusiones” resume el desarrollo de las nuevas funcionalidades de ABAL, partiendo de la necesidad de mejorar la estimación de los parámetros de las distribuciones con el uso de estimadores de máxima verosimilitud, indicando además las nuevas gráficas que permite realizar ABAL. Así mismo, se identificaron algunas líneas de trabajo a futuro.

Page 17: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Resumen ejecutivo

xv

Page 18: Ampliación de funcionalidad de la aplicación ABAL 0.1 para
Page 19: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

1

Introducción

Este trabajo presenta el desarrollo de las nuevas funcionalidades de ABAL una aplicación informática en línea que realiza pruebas de bondad de ajuste para los datos de entrada de los usuarios. Estas funcionalidades consisten en la integración de tres distribuciones más: la distribución Logística, la Logarítmica y la Gumbel; el uso de máxima verosimilitud para la estimación de parámetros y nuevas gráficas de utilidad para evaluar la calidad del ajuste de los datos.

Las rutinas de cálculo utilizan el método de máxima verosimilitud debido a que es mucho más estable y da resultados de mayor precisión. Por este motivo, en la segunda etapa de la aplicación ABAL se ha buscado reemplazar el método de momentos en las distribuciones que lo permitan, y extenderlo a las nuevas distribuciones de probabilidad que se incluyen en esta segunda etapa de ABAL.

La estimación de parámetros por el método de momentos tiene la ventaja de tener un manejo algebraico sencillo, sin embargo, al tratar con muestras pequeñas, se dan casos en que el método de momentos puede dar resultados fuera del rango esperado para los parámetros que estima.

El método de máxima verosimilitud, por otra parte, es mucho más estable y da resultados de mayor precisión, pero tiene la desventaja que el tratamiento analítico puede llevar a sistemas de ecuaciones simultáneas no-lineales muy difíciles de resolver o sencillamente intratables algebraicamente, exigiendo métodos numéricos y de optimización adecuados para su solución.

En la parte de visualización, entre las nuevas funcionalidades se añadió la capacidad de generar gráficas Q-Q (cuantil-cuantil) y gráficas P-P (probabilidad-probabilidad) que permiten rápidamente una evaluación gráfica de la bondad del ajuste de los datos. Las primeras permiten visualizar las comparaciones entre los cuantiles calculados de la muestra de datos, con los cuantiles teóricos del modelo de probabilidad probado, mientras que las segundas comparan los valores de probabilidad empírica a partir de la muestra con los de la probabilidad teórica del modelo probado.

En el desarrollo de gráficas, también se incluye un módulo para graficar distribuciones de probabilidad variando parámetros o comparando modelos, para tener una visualización que ayude al usuario a contrastar sus hipótesis de trabajo.

En los capítulos siguientes se muestran estos desarrollos.

Page 20: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

2

Page 21: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

3

1. Antecedentes

En el primer trimestre de 2019 el IMT liberó la Publicación Técnica No. 545 “Modelos de probabilidad en transporte e ingeniería. Usos comunes y ajuste de datos”, en la que se documentan y resumen las técnicas estadísticas de ajuste de datos que se requieren para tener un modelo de probabilidad adecuado para los datos de interés.

Así mismo, a finales del primer semestre del 2020 la Coordinación de Transporte Integrado y Logística del IMT liberó la Publicación Técnica No. 577 “Aplicación Informática para pruebas estadísticas de bondad de ajuste”, la cual detalla el desarrollo de la aplicación informática ABAL (Aplicación para Bondad de Ajuste en Línea).

En el contenido de dicha publicación se menciona que como resultado se obtuvo la versión 0.1 de ABAL, que básicamente fue el primer lanzamiento en la Web de prueba con los usuarios. El título de la presente publicación hace referencia a dicha versión y con la ampliación del desarrollo de ABAL se actualizará su versión a la 1.0.

La aplicación ABAL se encuentra disponible en línea en la dirección http://abal.imt.mx y es de libre acceso para cualquier usuario. Resuelve de manera práctica y eficiente la realización de pruebas de bondad de ajuste; además, genera reportes en formato PDF con los resultados del cálculo y sus complementos gráficos (histogramas).

En la primera versión, se pueden encontrar las distribuciones de probabilidad de uso más común en proyectos de investigación y de solución de problemas en ingeniería y transporte. Estas distribuciones son: Uniforme, Normal, Exponencial, Lognormal, Weibull, Gamma, Binomial, Geométrica (tanto para núm. de fallas como para núm. de ensayos) y Poisson.

La estimación de parámetros en la primera versión ABAL utiliza el método de momentos en los casos de: la Uniforme, la Gamma y la Binomial.

Con la distribución Weibull el método de momentos se dificulta; así que, con una transformación logarítmica de la función de distribución acumulada, se obtiene una forma lineal que admite una regresión lineal para estimar parámetros.

En las demás distribuciones se usa el método de máxima verosimilitud para la estimación de los parámetros.

La tabla 1.1 muestra los tests que ofrece ABAL para cada una de las distribuciones.

Page 22: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

4

Tabla 1.1 Distribuciones y tests

Ji-cuadrada Kolmogorov-Smirnov

Anderson-Darling

Uniforme

Normal

Exponencial

Lognormal

Weibull

Gamma

Binomial

Geométrica Núm. de fallas

Geométrica Núm. de ensayos

Poisson

Fuente: Elaboración propia.

En el desarrollo de ABAL, la estimación de parámetros a partir de la muestra del usuario, en algunos casos se usó el método de momentos, que iguala los momentos teóricos del modelo probabilístico con los momentos muestrales, y en otros casos, donde había disponible una fórmula directa, se usó el método de máxima verosimilitud.

Page 23: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

5

2. Desarrollo de nuevas funcionalidades de ABAL

El presente capítulo integra los módulos de desarrollo de las nuevas funcionalidades de ABAL. Dichos módulos definen los requerimientos que se integrarán a la aplicación, estos son:

Desarrollo de gráficas Q-Q y P-P.

Desarrollo de las distribuciones: Logística, Gumbel y Logarítmica.

Comparación de la distribución en gráficos.

Desarrollo de rutinas de optimización.

Subir en línea ejemplos de muestras resueltas con ABAL.

Actualizar el módulo de ayuda.

De acuerdo al Lenguaje Unificado de Modelado (UML), se exponen las nuevas funcionalidades de ABAL. En cada una de estas se listan sus requisitos correspondientes al diseño de interfaz y funcionalidad interna. Así mismo, cada funcionalidad es modelada en casos de uso como un conjunto de entradas, comportamientos y salidas. Finalmente, se ilustran las funcionalidades en prototipos de interfaces.

Es importante citar que, la metodología de gestión de requerimientos de Google, menciona que, “para sistemas grandes y complejos es imposible cumplir con los requerimientos de consistencia y compleción. La razón de esto se debe parcialmente a la complejidad inherente del sistema y parcialmente a que los diferentes puntos de vista de los usuarios tienen necesidades inconsistentes. Los problemas emergen después de un análisis profundo”.

En este sentido, con la especificación de los nuevos requerimientos se espera asegurar la compleción1 y consistencia2 de ABAL, sin embargo, una vez que los

1 Significa que todos los servicios solicitados por el usuario están definidos.

2 Significa que todos los requerimientos no tienen funciones contradictorias.

Page 24: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

6

requerimientos sean descubiertos en las diferentes revisiones o en las fases posteriores del ciclo de vida de ABAL, se procederá a su actualización.

2.1 Módulo de gráficas Q-Q y P-P

En este apartado se presentan las especificaciones del caso de uso del módulo de gráficas Q-Q y P-P. El caso describe los datos de entrada y salida del requerimiento. Cabe señalar que este proceso de cálculo se integrará únicamente a las distribuciones continuas. En la tabla 2.1 y 2.2 se describen los requisitos necesarios para cumplir con este módulo.

Tabla 2.1 Requerimientos de interfaz de gráficos Q-Q y P-P.

Número de requisito RI-1

Nombre de requisito Opción de cálculo de gráficos Q-Q y P-P

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Agregar la opción de cálculo de gráficos Q-Q y P-P

Agregar en la sección “genera histograma”:

Un cuadro de opción (check-box) como opción de selección de cálculo: gráficos Q-Q.

Un cuadro de opción (check-box) como opción de selección de cálculo: gráficos P-P.

Un área de vista para ambos gráficos.

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaboración propia.

Tabla 2.2 Requerimientos funcionales de gráficos Q-Q y P-P.

Número de requisito RF- 1

Nombre de requisito Desarrollo de gráficos Q-Q y P-P.

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Desarrollar los métodos de cálculo para gráficos Q-Q y P-P en todas las distribuciones hasta ahora disponibles en ABAL.

Como datos de entrada se requiere únicamente la muestra.

Desarrollar el proceso de cálculo del Q-muestral (probabilidad correspondiente a la distribución)

Obtener los parámetros correspondientes a la distribución y con ello, desarrollar el proceso de cálculo de la Q ~Distribución.

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaboración propia.

La figura 2.1 ilustra el modelado del caso de uso de gráficos Q-Q y P-P. En este se observa el flujo de eventos entre el usuario (actor) y la aplicación web, así como las acciones o actividades que lo conforman.

Page 25: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

2 Desarrollo de nuevas funcionalidades de ABAL

7

Figura 2.1 Diagrama de caso de uso: modelado de gráficas Q-Q y P-P.

2.2 Módulo distribución Logística

En este apartado se presentan las especificaciones del caso de uso del módulo de la distribución Logística, dicho caso incluye la descripción de los datos de entrada y salida del requerimiento.

En las tablas 2.3 y 2.4 se definen los requerimientos de la interfaz y el cálculo de las rutinas de optimización respectivamente. En la figura 2.2 se observa el caso de uso que muestra el flujo de eventos de los procesos de cálculo de la distribución Logística.

Tabla 2.3 Requerimientos de interfaz de la distribución Logística.

Número de requisito RI-2

Nombre de requisito Requisitos de interfaz para la distribución Logística

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Actualización de la página de inicio de ABAL y agregar una nueva página para el cálculo de la distribución Logística.

1. En el apartado de distribuciones de probabilidad continuas, agregar la distribución

Logística 2. Agregar una nueva página para el cálculo de la distribución Logística, con las siguientes

secciones:

Las fórmulas que definan la distribución

Page 26: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

8

Recomendación del número de datos mínimos a ingresar para obtener una prueba confiable.

Tabla para ingresar la muestra

Sección de “genera histograma”

Opción de comparación de la distribución en gráficos

Opción de cálculo de gráficos Q-Q y P-P

Opción de cálculo de tests: Ji-Cuadrada y Kolmogorov-Smirnov

Sección de resultados con: gráficos, datos y descarga de resultados en PDF.

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaboración propia.

Tabla 2.4 Requerimientos funcionales de la distribución Logística.

Número de requisito RF-2

Nombre de requisito Requisitos funcionales para la distribución Logística

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Desarrollar los métodos y clases para el cálculo de la distribución Logística a partir de Estimadores de Máxima Verosimilitud.

1. A partir de los parámetros 𝑎 y 𝑏 desarrollar una rutina para el cálculo de la función

objetivo a maximizar 2. A partir de una función de optimización, desarrollar una rutina para maximizar la función

objetivo y con ello obtener los estimadores MLE necesarios para esta distribución.

En dicha rutina restringir el valor de b como >0.0001 para asegurar que el algoritmo de optimización no llegue a usar el valor de cero en sus rutinas de cálculo.

Una vez obtenidos los valores de los parámetros 𝑎 y 𝑏 desarrollar un proceso para el cálculo de la prueba Ji-cuadrada.

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaboración propia.

Page 27: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

2 Desarrollo de nuevas funcionalidades de ABAL

9

Figura 2.2 Diagrama de caso de uso de la distribución Logística.

2.3 Módulo distribución Logarítmica

En este apartado se presentan las especificaciones del caso de uso del módulo de la distribución Logarítmica, dicho caso incluye la descripción de los datos de entrada y salida del requerimiento.

En las tablas 2.5 y 2.6 se definen los requerimientos de la interfaz y el cálculo de las rutinas de optimización respectivamente. En la figura 2.3 se observa el caso de uso que muestra el flujo de eventos de los procesos de cálculo de la distribución Logarítmica.

Tabla 2.5 Requerimiento de interfaz de la distribución Logarítmica.

Número de requisito RI-3

Nombre de requisito Requisitos de interfaz para la distribución Logarítmica

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Actualización de la página de inicio de ABAL y agregar una nueva página para el cálculo de la distribución Logarítmica.

1. En el apartado de distribuciones de probabilidad discreta, agregar la distribución Logarítmica. 2. Agregar una nueva página para el cálculo de la distribución Logarítmica con las siguientes secciones:

Las fórmulas que definan la distribución

Page 28: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

10

Recomendación del número de datos mínimos a ingresar para obtener una prueba confiable.

Tabla para ingresar la muestra

Sección de “genera histograma”

Opción de comparación de la distribución en gráficos

Opción de cálculo de gráficos Q-Q y P-P

Opción de cálculo de tests: Ji-Cuadrada y Kolmogorov-Smirnov

Sección de resultados con: gráficos, datos y descarga de resultados en PDF.

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaboración propia.

Tabla 2.6 Requerimientos funcionales de la distribución Logarítmica.

Número de requisito RF-3

Nombre de requisito Requisitos funcionales para la distribución Logarítmica

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Desarrollar los métodos y clases para el cálculo de la distribución Logarítmica a partir de Estimadores de Máxima Verosimilitud.

1. A partir del valor inicial del estimador �̂� desarrollar una rutina para el cálculo de la

función objetivo a minimizar. 2. A partir de una función de optimización, desarrollar una rutina para minimizar la función

objetivo, y con ello cambiar el valor inicial de �̂� . De esta forma se logra obtener la

función objetivo igual a cero o lo más cercano posible.

3. Una vez obtenido el valor de �̂� desarrollar una rutina para el cálculo de la prueba Ji-

cuadrada.

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaboración propia.

Page 29: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

2 Desarrollo de nuevas funcionalidades de ABAL

11

Figura 2.3 Diagrama de caso de uso de la distribución Logarítmica.

2.4 Módulo distribución Gumbel

En este apartado se presentan las especificaciones del caso de uso del módulo de la distribución Gumbel, dicho caso incluye la descripción de los datos de entrada y salida del requerimiento.

En las tablas 2.7 y 2.8 se definen los requerimientos de la interfaz y el cálculo de las rutinas de optimización respectivamente. En la figura 2.4 se observa el caso de uso que muestra el flujo de eventos de los procesos de cálculo de la distribución Gumbel.

Tabla 2.7 Requerimientos de interfaz de la distribución Gumbel.

Número de requisito RI-4

Nombre de requisito Requisitos de interfaz para la distribución Gumbel.

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Actualización de la página de inicio de ABAL y agregar una nueva página para el cálculo de la distribución Gumbel.

1. En el apartado de distribuciones de probabilidad continua agregar la distribución Gumbel. 2. Agregar una nueva página para el cálculo de la distribución Gumbel con las siguientes secciones:

Page 30: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

12

Las fórmulas que definan la distribución

Recomendación del número de datos mínimos a ingresar para obtener una prueba confiable.

Tabla para ingresar la muestra

Sección “genera histograma”

Opción de comparación de la distribución en gráficos

Opción de cálculo de gráficos Q-Q y P-P

Opción de cálculo de tests: Ji-Cuadrada y Kolmogorov-Smirnov

Sección de resultados con: gráficos, datos y descarga de resultados en PDF.

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaborado por el IMT

Tabla 2.8 Requerimientos funcionales de la distribución Gumbel.

Número de requisito RF- 4

Nombre de requisito Requisitos funcionales para la distribución Gumbel.

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Desarrollar los métodos y clases para el cálculo de la distribución Gumbel a partir de Estimadores de Máxima Verosimilitud.

1. Desarrollar una rutina para estimar el valor inicial del parámetro 𝑏. 2. Desarrollar una rutina de optimización para minimizar la función objetivo, y con ello

cambiar el valor inicial del parámetro 𝑏. De esta forma se logra obtener la función objetivo igual a cero o lo más cercano posible.

3. Una vez obtenido el valor de 𝑏 desarrollar una rutina para el cálculo de la prueba Ji-cuadrada.

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaboración propia.

Page 31: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

2 Desarrollo de nuevas funcionalidades de ABAL

13

Figura 2.4 Diagrama de caso de uso de la distribución Gumbel.

2.5 Desarrollo de rutinas de optimización

En este apartado se presentan las especificaciones de los casos de uso para el desarrollo de rutinas de optimización. El objetivo de desarrollar estas rutinas consiste en encontrar los estimadores MLE para el cálculo del test de dichas distribuciones. De esta manera se consigue actualizar los cálculos y con ello obtener un resultado óptimo.

En la tabla 2.9 se definen los requisitos para el cálculo de rutinas de optimización. En la imagen 2.5 se observa el caso de uso que muestra el flujo de eventos de los procesos de cálculo para la distribución Weibull.

Tabla 2.9 Requerimientos funcionales de la distribución Weibull.

Número de requisito RF-5

Nombre de requisito Requisitos funcionales para la distribución Weibull

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Desarrollar los métodos y clases para el cálculo de rutinas de optimización

Page 32: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

14

1. A partir de los valores iniciales de 𝜆0, 𝑘0 desarrollar una rutina para el cálculo de la

función objetivo. 2. Desarrollar una rutina de optimización para maximizar la función objetivo, y con ello

encontrar los estimadores MLE para calcular la distribución.

Obtener la función objetivo igual a cero o lo más cercano posible.

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaboración propia.

Figura 2.5 Diagrama de caso de uso de la distribución Weibull.

En la tabla 2.10 se definen los requisitos para el cálculo de rutinas de optimización. En la figura 2.6 se observa el caso de uso que muestra el flujo de eventos de los procesos de cálculo para la distribución Gamma.

Tabla 2.10 Requerimientos funcionales de la distribución Gamma.

Número de requisito RF-6

Nombre de requisito Requisitos funcionales para la distribución Gamma.

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Desarrollar los métodos y clases para el cálculo de rutinas de optimización

1. A partir de los valores iniciales de 𝛼, 𝛽 desarrollar una rutina para el cálculo de la función objetivo.

2. Desarrollar una rutina de optimización para maximizar la función objetivo y con ello encontrar los estimadores MLE para calcular la distribución.

Obtener la función objetivo igual a cero o lo más cercano posible.

Page 33: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

2 Desarrollo de nuevas funcionalidades de ABAL

15

Prioridad del requisito ☒Alta/Esencial ☐Media/Deseado ☐Baja/ Opcional

Fuente: Elaboración propia.

Figura 2.6 Diagrama de caso de uso de la distribución Gamma.

2.6 Módulo gráfico para comparar distribuciones

En este apartado se presentan las especificaciones del caso de uso para el proceso de comparación de distribuciones, la cuales, serán visualizadas en diversos gráficos. Las opciones de gráficos disponibles son: distribución individual, familia paramétrica, área bajo la curva y dos distribuciones. En la tabla 2.11 se definen los requisitos para el cálculo de los gráficos y en la figura 2.7 se describe el flujo de eventos del proceso de cálculo.

Tabla 2.11 Requerimientos de interfaz de gráficos para la comparación de distribuciones.

Número de requisito RI-5

Nombre de requisito Comparación de distribuciones

Tipo ☒Requisito ☐Restricción

Fuente del requisito Equipo de trabajo

Descripción del requisito Agregar nuevas opciones de gráficos para la comparación de distribuciones.

1. Agregar una sección de opciones de gráficas que incluya:

Page 34: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

16

Distribución individual

Familia paramétrica

Área bajo la curva

Dos distribuciones

2. Para generar el gráfico de “distribución individual” se requieren: la distribución y los parámetros que correspondan a la distribución.

3. Para el gráfico de “familia paramétrica” se requiere: la distribución y el conjunto de parámetros. Se podrán visualizar hasta cuatro comportamientos de la distribución en un mismo gráfico.

4. Para el cálculo del “área bajo la curva” se requiere especificar las áreas sombreadas a graficar, estas son: cola a la derecha, cola a la izquierda, ambas colas e intermedio. Posteriormente se requiere el tipo de distribución, parámetros y el acumulado.

Prioridad del requisito ☐Alta/Esencial ☒Media/Deseado ☐Baja/ Opcional

Fuente: Elaborado por el IMT

Figura 2.7 Diagrama de caso de uso de comparación de distribuciones.

2.7 Despliegue de nuevas funcionalidades de ABAL

A continuación, se presenta el despliegue de las nuevas funcionalidades de ABAL. Se inicia con las vistas de las distribuciones: logística, Logarítmica y Gumbel, posteriormente se muestran las figuras de gráficos Q-Q y P-P. Finalmente se muestra un prototipo de los gráficos de comparación de distribuciones.

Page 35: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

2 Desarrollo de nuevas funcionalidades de ABAL

17

Figura 2.8 Vista de la distribución Logística, Logarítmica y Gumbel.

En la figura 2.9 se muestra una vista de las opciones de gráficas Q-Q y P-P en la sección de “otros gráficos”. Estos gráficos están disponibles para las distribuciones continuas.

Figura 2.9 Vista de opciones de gráficas Q-Q y P-P.

En la figura 2.10 se muestra un ejemplo de las gráficas Q-Q y P-P para una distribución Uniforme. Se observa (para todas las gráficas de este tipo) al costado derecho, un conjunto de herramientas para manipular los gráficos, de las cuales destaca la opción: “Save”, ícono en forma de disco, el cual, permite descargar los gráficos en la carpeta de “Descargas” de Windows, para su uso posterior.

Figura 2.10 Vista de las gráficas Q-Q y P-P para una distribución Uniforme.

Page 36: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

18

En la figura 2.11 se muestra una vista de las gráficas Q-Q y P-P para una distribución Normal.

Figura 2.11 Vista de las gráficas Q-Q y P-P para una distribución Normal.

En la figura 2.12 se muestra una vista de las gráficas Q-Q y P-P para una distribución Exponencial.

Figura 2.12 Vista de las gráficas Q-Q y P-P para una distribución Exponencial.

En la figura 2.13 se muestra una vista de las gráficas Q-Q y P-P para una distribución Lognormal.

Figura 2.13 Vista de las gráficas Q-Q y P-P para una distribución Lognormal.

Page 37: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

2 Desarrollo de nuevas funcionalidades de ABAL

19

En la figura 2.14 se muestra una vista de las gráficas Q-Q y P-P para una distribución Weibull.

Figura 2.14 Vista de las gráficas Q-Q y P-P para una distribución Weibull.

En la figura 2.15 se muestra una vista de las gráficas Q-Q y P-P para una distribución Gamma.

Figura 2.15 Vista de las gráficas Q-Q y P-P para una distribución Gamma.

En la figura 2.16 se muestra una vista del prototipo de las gráficas de comparación de distribuciones. Conforme se realicen más pruebas en producción, este diseño podría variar ligeramente.

Page 38: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

20

Figura 2.16 Vista de las gráficas de comparación de distribuciones.

Page 39: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

21

3. Otras distribuciones de probabilidad

En la primera etapa de la aplicación ABAL se desarrollaron las pruebas de bondad de ajuste de seis distribuciones continuas: Uniforme, Normal, Exponencial, Lognormal, Weibull y Gamma, así como de tres distribuciones discretas: Binomial, Geométrica (en sus dos versiones, núm. de fallas previas al éxito y núm. de ensayos para el éxito) y Poisson.

En esta segunda etapa se agregan tres distribuciones más: la distribución discreta Logarítmica, y las distribuciones continuas Logística y Gumbel.

3.1 Distribución Logarítmica

La distribución Logarítmica es una distribución discreta que toma valores positivos enteros a partir de 1, y que presenta colas alargadas hacia la derecha. En la literatura es común que se presente como una derivación basada en el desarrollo de la serie de Maclaurin para el logaritmo natural de la variable (1 − 𝑥):

− ln(1 − 𝑥) = 𝑥 + 𝑥2

2 +

𝑥3

3+ … ; para − 1 ≤ 𝑥 < 1

Con un parámetro 0 < 𝜃 < 1 y la igualdad de la serie de Maclaurin anterior, se verifica la siguiente ecuación, que se interpreta como la suma de probabilidades discretas que define a la distribución logarítmica:

∑−1

ln(1 − 𝜃) 𝜃𝑘

𝑘

𝑘=1= 1

Por lo que la función de probabilidad de la variable aleatoria Logarítmica X es:

𝑃[𝑋 = 𝑘] = −1

ln(1 − 𝜃) 𝜃𝑘

𝑘 ; 𝑘 = 1, 2, … ∞; 0 < 𝜃 < 1

Esta distribución puede modelar conteo de eventos de interés, donde el resultado son números enteros positivos a partir de 1. Por comodidad en las expresiones

suele escribirse: 𝑎 =−1

ln(1−𝜃) con lo que la función de probabilidad resulta:

𝑃[𝑋 = 𝑘] = 𝑎𝜃𝑘

𝑘 ; 𝑘 = 1, 2, … ∞; 0 < 𝜃 < 1; 𝑎 =

−1

ln(1 − 𝜃)

La media y la varianza de la distribución Logarítmica son como sigue.

Page 40: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

22

Media =𝑎𝜃

(1 − 𝜃)

Varianza = 𝑎𝜃(1 − 𝑎𝜃)

(1 − 𝜃)2

Aunque la motivación de la distribución Logarítmica parece puramente matemática, ha resultado útil en situaciones de conteo donde puede obtenerse cualquier número mayor a cero. Algunos casos de uso exitoso de esta distribución son los siguientes.

Andreassen, D.C. (1986). Logra un buen ajuste a una distribución logarítmica al analizar frecuencias de accidentes en Australia.

Deni, S.D. and Jemain, A.A. (2009). Combinan una distribución logarítmica con una geométrica en un estudio de secuencias de días lluviosos y días secos en Malasia.

TutorVista.com, un servicio de tutoría universitaria en línea, reporta como aplicaciones de la distribución logarítmica, la modelación de reclamaciones en aseguradoras y el conteo del número de productos que adquieren los consumidores en cierto periodo de observación.

La figura 3.1 muestra dos ejemplos de esta distribución, para 𝜃 igual a 0.5 y 0.75.

Figura 3.1 Función de probabilidad Logarítmica.

Page 41: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

3 Otras distribuciones de probabilidad

23

3.2 Distribución Logística

Esta distribución es llamada así debido a que su función de distribución acumulada (FDA) resulta ser una curva logística, la cual es usada típicamente en la modelación de crecimiento de poblaciones.

Una de sus aplicaciones más conocida es la regresión logística o logit, para estudios de elecciones discretas de bienes o servicios de usuarios que enfrentan alternativas de decisión, como por ejemplo elegir entre viaje en autobús o en tren, bajo diferentes ofertas de precio y tiempo.

El rango de valores de una variable aleatoria 𝑋 logística de parámetros 𝑎 (de localización), 𝑏 (de escala) y su función de densidad de probabilidad (fdp) son:

𝑓(𝑥) = 𝑒−(𝑥−𝑎

𝑏)

𝑏 [1 + 𝑒−(𝑥−𝑎𝑏

)]2

−∞ < 𝑥 < ∞; −∞ < 𝑎 < ∞; 𝑏 > 0

La media y la varianza de la distribución Logística son como sigue.

Media = 𝑎

Varianza = 𝑏2𝜋2

3

La distribución logística es simétrica respecto al parámetro de localización 𝑎, y en algunas circunstancias puede reemplazar a la función Normal, y al igual que ésta, cuando se “normaliza” la variable aleatoria original, se obtiene la densidad (0, 1), es decir, si:

𝑋 ~ 𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐𝑎(𝑎, 𝑏), entonces la v. a 𝑌 =𝑋 − 𝑎

𝑏~ 𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐𝑎(0, 1)

Diversos autores han reportado el uso de la distribución Logística en trabajos de investigación en varios campos. Algunos ejemplos son:

Van Beek, P. (1978) utiliza una distribución Logística para modelar una política de revisión continua para control de inventarios.

Rajkai, K. et al. (1996) modelan con una distribución Logística características de retención de agua a partir de datos de densidad de suelos en Suecia.

Cooray, K. (2005) analiza datos de tiempos de vida introduciendo una distribución Logística modificada que le permite un manejo mejorado de colas muy largas en la distribución de los datos.

Page 42: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

24

Krishnamoorty, K. (2006) describe el uso de la Logística en comparaciones con la Weibull para estudios de velocidades de viento.

Bowling, S.R. et al (2009), desarrollan un método de aproximación a la función de distribución acumulada Φ(x) de la Normal, usando una distribución Logística.

La figura 3.2 muestra dos ejemplos de esta distribución.

Figura 3.2 Densidad de probabilidad Logística.

3.3 Distribución Gumbel

Esta distribución, propuesta por E. J. Gumbel en 1935; se desarrolló para estudiar los valores más grandes (extremos) en muestras de datos y originalmente se aplicó para estimar niveles de inundaciones (Forbes, C. et al, 2011). También se conoce como Distribución de valores extremos Tipo I.

El rango de valores de una variable aleatoria 𝑋 Gumbel de parámetros 𝑎 (de localización), 𝑏 (de escala) y su función de densidad de probabilidad (fdp) son como sigue:

𝑓(𝑥) = 1

𝑏𝑒

−[ 𝑥−𝑎𝑏

+ 𝑒−(

𝑥−𝑎𝑏

)]

−∞ < 𝑥 < ∞; −∞ < 𝑎 < ∞; 𝑏 > 0

La media y la varianza correspondientes son como sigue, donde 𝛾 es la constante de Euler-Mascheroni ≈ 0.5772156649:

Media = 𝑎 + 𝛾𝑏

Varianza = 𝑏2𝜋2

6

Page 43: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

3 Otras distribuciones de probabilidad

25

La distribución Gumbel ha resultado apropiada como modelo probabilístico en situaciones donde interesa estimar probabilidades de que la v.a. de interés alcance o rebase valores de referencia dados (p. ej. en hidrología para niveles de lluvia o de sequía; en el ambiente industrial la estimación del mínimo tiempo de ocurrencia a una falla en un equipo).

Algunos trabajos de investigación que ejemplifican el uso de esta distribución son los siguientes.

Önoz, B. and Bayazit, M. (1995), reportan el uso de la distribución Gumbel como la de mejor desempeño para modelar niveles máximos de inundaciones con datos de varias regiones del mundo.

Xu, Y.L. (1995) utiliza una distribución Gumbel para modelar las características de fatiga por presiones de viento en un edificio de una universidad de Texas.

Jánosikova, L. and Slavik, M. (2014) modelan la llegada de pasajeros a paradas de autobús de transporte público en la República Eslovaca utilizando una distribución Gumbel.

Rehman, K; Burton, P.W. and Weatherill, G.A. (2018) utilizan una distribución Gumbel y el método de simulación Monte Carlo en el análisis de riesgo sísmico en Pakistán.

La figura 3.3 muestra un par de ejemplos de esta distribución.

Figura 3.3 Densidad de probabilidad Gumbel.

Page 44: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

26

Page 45: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

27

4. La estimación de máxima verosimilitud

El proceso de estimación de parámetros de una distribución de probabilidad es el primer paso en la determinación de la bondad de ajuste de cualquier muestra de datos que se ingrese a la aplicación ABAL. Los dos métodos de estimación de parámetros usados en la primera versión de ABAL fueron: a) el método de momentos, y b) el método de máxima verosimilitud.

El método de momentos para estimar los parámetros de una distribución se basa en igualar los momentos de la distribución teórica propuesta para los datos, con los momentos muestrales calculados de los datos que se están ajustando. Este método es sencillo de usar, y en general permite estimar los parámetros por procedimientos algebraicos, pero puede dar estimaciones fuera de rango de los parámetros teóricos en algunos casos cuando se manejan muestras pequeñas.

El método de máxima verosimilitud estima los parámetros de una distribución buscando el valor numérico de los parámetros que maximizan la probabilidad de haber obtenido la muestra particular que se está analizando.

Este método produce resultados mucho más precisos que el método de momentos, pero exige un tratamiento matemático más elaborado. Si la distribución de probabilidad a probar es diferenciable, se pueden aplicar los métodos clásicos de optimización, pero en muchos casos el sistema de ecuaciones que resulta para encontrar los puntos críticos es demasiado complicado y se requieren métodos numéricos para encontrar las soluciones.

En este capítulo se muestra el desarrollo de estimadores de máxima verosimilitud para las distribuciones que en la primera versión de ABAL se manejaron con el método de momentos, y para las nuevas distribuciones en este trabajo de ampliación de funcionalidades de ABAL. Las distribuciones consideradas son:

a) Logarítmica (discreta)

b) Weibull (continua)

c) Logística (continua)

d) Gumbel (continua)

c) Gamma (continua).

Page 46: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

28

4.1 Distribución Logarítmica

Esta distribución discreta tiene la siguiente función de probabilidad.

𝑃[𝑋 = 𝑘] = −1

ln(1 − 𝜃) 𝜃𝑘

𝑘 ; 𝑘 = 1, 2, … ∞; 0 < 𝜃 < 1

Dada una muestra 𝑥1, 𝑥2, … , 𝑥𝑛 con media muestral �̅�, el estimador de máxima

verosimilitud 𝜃 para la Logarítmica cumple con la ecuación (Krishnamoorty, 2006):

𝜃 =�̅� Ln (1 − 𝜃)

�̅� Ln(1 − 𝜃) − 1 … (4.1)

El único dato requerido para el cálculo es la media muestral �̅�, sin embargo la

ecuación (4.1) no calcula 𝜃 de manera explícita, y no es sencillo despejar el valor

de 𝜃, por lo que es necesario utilizar métodos numéricos para la solución. Si se tiene

la media �̅�, se podría aproximar el valor de 𝜃 , considerando la diferencia 𝑑(𝜃):

𝑑(𝜃) = 𝜃 −�̅� Ln(1 − 𝜃)

�̅� Ln(1 − 𝜃) − 1 … (4.1𝑎)

Al graficar 𝜃 contra 𝑑(𝜃) puede ubicarse el valor que hace 𝑑(𝜃) = 0, donde la curva

cruza el eje horizontal. La figura 4.1 muestra el corte con el eje horizontal entre 0.7

y 0.8. como primera aproximación a �̂� para una media �̅� = 2.15

Figura 4.1 Aproximación gráfica al parámetro �̂�.

Page 47: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

4 La estimación de máxima verosimilitud

29

Para afinar la estimación de 𝜃 se utiliza el complemento Solver de Excel, en la opción de optimización no-lineal, usando como punto de búsqueda inicial 0.7, que es límite inferior del intervalo donde se encuentra el cruce con el eje horizontal en la figura 4.1. La figura 4.2 muestra los valores inicial y final de la solución con Solver, donde la celda Objetivo contiene la ecuación (4.1a).

Figura 4.2 Estimación del parámetro �̂� con Solver de Excel.

4.2 Distribución Weibull

La distribución Weibull tiene dos parámetros: de forma y k de escala. El rango de

valores de 𝑥 y su función de densidad de probabilidad (fdp) son:

𝑓(𝑥) = 𝜆

𝑘(

𝑥

𝑘)

𝜆−1

𝑒−(𝑥 𝑘⁄ )𝜆; 𝑥 > 0; 𝜆, 𝑘 > 0

En la primer versión de ABAL se estiman los parámetros con una rutina de regresión lineal basada en linealizar la función de distribución acumulada con una transformación logarítmica; esta estimación se usa para los valores iniciales 𝜆0, 𝑘0 en la rutina de optimización.

Dada una muestra de datos 𝑥1, 𝑥2, … , 𝑥𝑛 para la estimación MLE de los parámetros

𝜆, 𝑘, debe maximizarse el logaritmo de la función de verosimilitud (Nielsen, 2011):

𝐿𝐿(𝜆, 𝑘) = 𝑛𝐿𝑛(𝜆) − 𝑛𝜆𝐿𝑛(𝑘) + (𝜆 − 1) ∑ 𝐿𝑛(𝑥𝑗)

𝑛

𝑗=1

− ∑ (𝑥𝑗

𝑘)

𝜆𝑛

𝑗=1

… (4.2)

Los valores �̂�, �̂� que maximizan la ecuación (4.2) son la estimación MLE requerida. Dado el carácter no-lineal de esta ecuación, la maximización puede hacerse con un algoritmo de gradiente generalizado (GRG), que está disponible en una rutina tipo Solver como la que ofrece Excel. El procedimiento de cálculo se ilustra en la hoja de Excel de la figura 4.3.

La muestra de datos es de tamaño 75, pero sólo se ven los primeros 10 datos. La estimación de valores iniciales 𝜆0, 𝑘0 se obtienen con la rutina de estimación para Weibull usada en ABAL 1.0, y aparece en la tabla marcada en amarillo.

Page 48: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

30

Figura 4.3 Estimación de parámetros Weibull λ,k con Solver de Excel.

Los elementos de la tabla están organizados como sigue.

Los valores iniciales 𝜆0, 𝑘0 generados con ABAL 1.0 están en las columnas [4] y [5].

La columna [1] tiene los datos 𝑥𝑗 (son 75; sólo se ven los primeros 10). La columna

[2] tiene el valor 𝐿𝑛(𝑥𝑗). Para facilitar los cálculos, la columna [3] contiene el valor

(𝑥𝑗/𝑘)𝜆 con 𝜆, 𝑘 en columnas [4] y [5].

El objetivo a maximizar en la columna [6] tiene la ecuación (4.2), con 𝜆, 𝑘 en columnas [4] y [5]. Las sumatorias se obtienen con las columnas [2] y [3], y el valor de 𝑛 = 75 que se muestra en la tabla.

Con la ecuación (4.2) en la columna [6] (el objetivo) se corre Solver para maximizar la casilla OBJ y se encuentran los estimadores MLE para la distribución Weibull:

La solución de Solver se muestra en la figura 4.4. �̂� = 1.94912, �̂� = 16.70240

Figura 4.4 Solución MLE de parámetros Weibull λ,k con Solver de Excel.

Page 49: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

4 La estimación de máxima verosimilitud

31

4.3 Distribución Logística

La distribución Logística se describe con la siguiente función de densidad de probabilidad (fdp) de dos parámetros 𝑎, 𝑏:

Dada una muestra de datos 𝑥1, 𝑥2, … , 𝑥𝑛 para la estimación MLE de los parámetros 𝑎, 𝑏, el logaritmo de la función de verosimilitud que debe maximizarse es como sigue (Zaiontz, C., 2019):

𝐿𝐿(𝑎, 𝑏) =𝑛

𝑏𝑎 −

𝑛

𝑏�̅� − 2 ∑ 𝐿𝑛 [1 + exp (− (

𝑥𝑗 − 𝑎

𝑏))]

𝑛

𝑗=1

− 𝑛𝐿𝑛(𝑏) … (4.3)

Donde �̅� = 1

𝑛∑ 𝑥𝑗

𝑛𝑗=1

La maximización se hace con la opción de optimización no-lineal de Solver; los valores iniciales 𝑎0, 𝑏0 se obtienen con base en el método de momentos como sigue.

𝑎0 = �̅� =1

𝑛∑ 𝑥𝑗

𝑛

𝑗=1

; 𝑏0 =√3

𝜋√

1

𝑛 − 1∑(𝑥𝑘 − �̅�)2

𝑛

𝑘=1

La tabla 4.5 muestra la tabla de cálculos en Excel.

Figura 4.5 Estimación de parámetros a,b de la distribución Logística.

Page 50: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

32

La columna [1] tiene los datos 𝑥𝑗.

La columna [2] tiene el valor 𝐿𝑛 [1 + exp (− (𝑥𝑗−𝑎

𝑏))] usando 𝑎, 𝑏 de las columnas

[3] y [4].

El objetivo a maximizar en la columna [5] tiene la ecuación (4.3), usando 𝑎, 𝑏 de las columnas [3] y [4].

La casilla G3 para el valor de 𝑏 se restringe en el cuadro de Solver como > 0.0001 para asegurar que el algoritmo no pueda ensayar el valor cero en sus rutinas.

Con la ecuación (4.3) en la casilla OBJETIVO, se corre Solver para maximizar el valor en esa casilla y se obtienen los estimadores MLE para la distribución Logística, como se muestra en la figura 4.6.

Figura 4.6 Parámetros de máxima verosimilitud a,b en distribución Logística.

La solución de Solver indica los estimadores MLE �̂� = −3.38135, �̂� = 2.04236

4.4 Distribución de Gumbel

La función de densidad de probabilidad y los parámetros de esta distribución son:

Page 51: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

4 La estimación de máxima verosimilitud

33

Dada una muestra de datos 𝑥1, 𝑥2, … , 𝑥𝑛el estimador de máxima verosimilitud 𝑏 cumple la siguiente condición (Zaiontz, C., 2019):

𝑏 = �̅� −∑ 𝑥𝑗exp (−

𝑥𝑗

𝑏)𝑛

𝑗=1

∑ exp (−𝑥𝑗

𝑏)𝑛

𝑗=1

… (4.4)

El valor de 𝑎 se estima a partir de 𝑏 como:

𝑎 = −𝑏𝐿𝑛 [1

𝑛∑ exp (−

𝑥𝑗

𝑏)

𝑛

𝑗=1

] … (4.5)

La dificultad para tratar la ecuación (4.4) es que al estar 𝑏 en ambos lados de la ecuación, no se puede despejar para dejar el parámetro 𝑏 de un solo lado.

Una manera de aproximar el valor de 𝑏 es considerar la diferencia 𝐷 de la ecuación (4.4.a) la cual se deriva de la ecuación (1):

𝐷 = 𝑏 − (�̅� −∑ 𝑥𝑗exp (−

𝑥𝑗

𝑏)𝑛

𝑗=1

∑ exp (−𝑥𝑗

𝑏)𝑛

𝑗=1

) … (4.4𝑎)

Probando valores de 𝑏 en un cierto rango, p.ej. entre 1 y 3.5, se obtiene la gráfica de la figura 4.7 donde se aprecia que la curva corta al eje horizontal en algún punto entre 2.6 y 2.8.

Este procedimiento puede dar una guía para encontrar una buena aproximación para 𝑏 sin embargo no es práctico, ya que el rango a elegir para graficar no es obvio a partir del conjunto de datos, además de que el grado de precisión logrado depende del incremento usado en los valores tentativos de 𝑏.

Page 52: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

34

Figura 4.7 Aproximación gráfica al parámetro b Gumbel.

Una mejor manera para estimar 𝑏 se puede usar Solver de Excel para obtener cero o el valor más cercano posible en la diferencia de la ecuación (4.4a). El valor inicial 𝑏0 para correr Solver se estima con el método de momentos como indica la

ecuación (4.6), donde �̅� es la media muestral.

𝑏0 =√6

𝜋√

∑ (𝑥𝑗 − �̅�)2𝑛

𝑗=1

𝑛 − 1 … (4.6)

La figura 4.8 muestra la tabla de cálculos en Excel.

Figura 4.8 Estimación de parámetros a,b de la distribución Gumbel.

Page 53: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

4 La estimación de máxima verosimilitud

35

La columna [1] contiene los datos 𝑥𝑗. La columna [2] contiene el valor exp(−𝑥𝑗/𝑏).

La columna [3] contiene el valor 𝑥𝑗exp(−𝑥𝑗/𝑏). La columna [4] contiene el valor 𝑏

que cambia Solver para lograr cero en la casilla OBJETIVO.

La columna [5] contiene la diferencia 𝐷 de la ecuación (4.4𝑎) que se calcula con las

sumatorias de las columnas [2] y [3] más el valor 𝑏 en la columna [4].

El procedimiento inicia poniendo el valor inicial 𝑏0 calculado con la ecuación (4.6) en la casilla de la columna [4] y luego corriendo Solver con la condición de poner 0 en la casilla OBJETIVO. El valor de 𝑎 se estima automáticamente con la ecuación (4.5) que aparece en anaranjado en la hoja de Excel de la figura 4.9.

Figura 4.9 Parámetros de máxima verosimilitud a,b en distribución Gumbel.

La solución de Solver es: �̂� = −0.25056, �̂� = 2.78208.

4.5 Distribución Gamma

La función de densidad de probabilidad y sus parámetros son:

𝑓(𝑥) = 1

Γ(𝛼)𝛽𝛼𝑥𝛼−1𝑒−(𝑥 𝛽⁄ )

𝛼: forma, 𝛽: escala; 𝛼, 𝛽 > 0; 𝑥 ≥ 0

El logaritmo de la función de máxima verosimilitud que hay que maximizar es como sigue:

𝐿𝐿(𝛼, 𝛽) = 𝑛 [(𝛼 − 1)𝐿𝑛(𝑥𝑗)̅̅ ̅̅ ̅̅ ̅̅ ̅ −�̅�

𝛽− 𝛼𝐿𝑛(𝛽) − 𝐿𝑛(Γ(𝛼))] … (4.7)

Page 54: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

36

Donde 𝐿𝑛(𝑥𝑗)̅̅ ̅̅ ̅̅ ̅̅ ̅ es el promedio de los logaritmos de los datos 𝑥𝑗, y �̅� es el promedio

de los 𝑥𝑗.

Se sabe que el máximo de (4.7) ocurre si 𝛽 =�̅�

𝛼 (Zaointz, C., 2019); así que con ese

valor para 𝛽, la estimación de 𝛼 se hace con Solver maximizando la ecuación (4.7).

El valor inicial 𝛼0 se estima con el método de momentos con la ecuación (4.8) ):

𝛼0 =𝑚1

′ 2

𝑚2′ − 𝑚1

′ 2 … (4.8)

La figura 4.10 muestra la hoja de Excel para los cálculos.

Figura 4.10 Estimación de parámetros α,β de la distribución Gamma.

La columna [1] contiene los datos 𝑥𝑗. La columna [2] contiene los valores 𝐿𝑛(𝑥𝑗).

Las columnas [3] y [4] contienen los momentos muestrales para calcular el valor inicial 𝛼0 con la ecuación (4.8).

La columna [5] contiene el valor 𝛼 para la estimación con Solver. La columna [6]

contiene el valor 𝛽 calculado a partir de 𝛼 con la ecuación 𝛽 =�̅�

𝛼.

La columna [7] contiene la ecuación (4.7) que es lo que maximiza Solver, y usa los

valores 𝛼, 𝛽 de las columnas [5] y [6]. El planteamiento con Solver es:

Page 55: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

4 La estimación de máxima verosimilitud

37

Figura 4.11 Estimación de parámetros α,β de la distribución Gamma.

La solución que se obtiene de Solver es:

Figura 4.12 Solución de Solver.

Page 56: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

38

Page 57: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

39

5. Ejemplos de uso de ABAL con datos reales

La versión ABAL 0.1 ofrece en su menú una colección de ejemplos de bondad de ajuste usando datos reales de diversas fuentes, que se resolvieron con las rutinas que ofrece ABAL. Estos ejemplos muestran casos de las distribuciones que aparecen en el menú, como son: Uniforme, Normal, Exponencial, Lognormal, etc.

En este capítulo se muestran algunos ejemplos más, con las nuevas distribuciones que se han agregado al menú: la distribución Logarítmica del tipo discreto, y las distribuciones continuas Logística y Gumbel. Los ejemplos mostrados usan datos reales de distintas fuentes.

5.1 Ejemplo de la distribución Logarítmica

La distribución Logarítmica es del tipo discreto y los posibles valores que puede tomar son los números enteros positivos: 1, 2, 3, … Esta característica la hace apropiada para modelar conteo de eventos aleatorios que sólo pueden tomar esos valores.

Los datos de la tabla 5.1 son número de tripulantes de vehículos utilitarios registrados en la Estación 246 “Playas de Tijuana” en las encuestas origen-destino 2010 del Estudio Estadístico del Autotransporte Nacional (EECAN) del IMT. El ajuste a una distribución Logarítmica se muestra enseguida.

Tabla 5.1 Núm. de tripulantes de vehículos utilitarios. Estación 246 “Playas de Tijuana” EECAN 2010.

1 2 4 2 1 2 1

1 1 2 4 2 1 1

2 1 2 1 1 1 1

1 3 1 1 2 1 2

1 2 1 1 2 1 1

1 2 1 1 1 1 1

2 4 1 2 1 1 1

2 1 3 1 1 2 2

Fuente: Estudios realizados por el IMT

La muestra es de tamaño 56; el máximo es 4 y su promedio es �̅� = 1.5357.

Este promedio se usa en el procedimiento descrito en la sección 4.1 y se obtiene la

estimación del parámetro 𝜃. El resultado de Solver se muestra enseguida

Page 58: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

40

Con esta estimación 𝜃 = 0.55263 se realizó una prueba Ji-cuadrada de bondad de ajuste, con el resultado que se muestra en la figura 5.1.

Figura 5.1 Prueba Ji-cuadrada para distrib. Logarítmica.

El valor de la prueba Ji-cuadrada es 7.7966, menor al valor crítico para 4 grados de libertad que es 9.48773. En la tabla se aprecia también el valor-p de esta prueba que es 9.932%, que supera el 5% de significancia de la prueba.

Este resultado indica que la variable número de tripulantes en vehículos utilitarios se distribuye como una Logarítmica de parámetro 0.55623.

La figura 5.2 muestra el histograma de los datos en términos de probabilidad empírica (barras color naranja) comparado al ajuste de la prueba Ji-cuadrada (en línea de puntos azul), que corresponde a la distribución teórica de los datos.

Page 59: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

5 ejemplos de uso de ABAL con datos reales

41

Figura 5.2 Prueba Histograma de datos y ajuste de Logarítmica �̂� = 𝟎. 𝟓𝟓𝟐𝟔𝟑.

5.2 Ejemplo de la distribución Logística

La distribución Logística es del tipo continuo, es simétrica alrededor de su parámetro 𝑎, su dominio de valores es el eje real (−∞, ∞) y en ocasiones puede usarse en lugar de la Normal.

Los datos de la tabla 5.2 son envíos mensuales de algodón (ton) exportado a Estados Unidos en 2019 por el cruce de Nuevo Laredo, registrados en el sistema Transborder Freight Data del Bureau of Transportations Statistics norteamericano (https://www.bts.gov/transborder).

Tabla 5.2 Exportación de algodón a EUA por Laredo, 2019 (tons).

816.947 683.282 755.913

627.784 541.986 543.690

627.123 702.175 477.182

484.088 799.890 594.595

Fuente: Estudios realizados por el IMT

El ajuste de estos datos a una distribución Logística se desarrolla enseguida.

Page 60: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

42

Los valores iniciales 𝑎0, 𝑏0 se obtienen como sigue.

𝑎0 = �̅� =1

𝑛∑ 𝑥𝑗

𝑛

𝑗=1

= 637.88792

𝑏0 =√3

𝜋√

1

𝑛 − 1∑(𝑥𝑘 − �̅�)2

𝑛

𝑘=1

= 63.96661

Con estos valores se aplica el procedimiento de la sección 4.3, y se obtiene la estimación de máxima verosimilitud de los parámetros. El resultado de Solver se muestra en la figura 5.3

Figura 5.3 Estimación de parámetros a, b de la Logística.

La estimación de máxima verosimilitud indica los parámetros para la distribución

Logística de los embarques de algodón como �̂� = 635.18941, �̂� = 67.23011.

La gráfica Q-Q que se muestra en la figura 5.4 indica que los datos ajustan razonablemente a una distribución logística con los parámetros estimados, con la mayoría de puntos cercanos a la recta de igualdad Y = X.

Page 61: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

5 ejemplos de uso de ABAL con datos reales

43

Figura 5.4 Gráfica Q-Q de datos de exportación de algodón ajustados a una

distribución Logística.

5.3 Ejemplo de la distribución Gumbel

La distribución Gumbel o distribución de Valores Extremos es continua, con valores en el eje real (−∞, ∞) y tiene dos parámetros 𝑎, 𝑏 con 𝑎 en el eje real y 𝑏 positivo.

La tabla 5.3 muestra el valor de daños materiales (miles de dólares) en accidentes registrados en carreteras federales a nivel estatal en 2018 en el Anuario estadístico de accidentes del IMT (Cuevas A.C., Mayoral, E. F. y Mendoza A., 2018).

Tabla 5.3 Daños materiales (miles de dólares) por accidentes en carreteras federales por estado en 2018.

778.68 415.11 618.36 1617.62

1545.92 993.02 1812.89 1601.37

613.26 3498.75 4711.31 1756.29

778.92 2408.81 1029.41 1972.04

1061.40 2246.00 2550.28 1339.93

522.16 2769.22 2116.42 6257.96

2202.65 3719.10 879.96 703.84

1374.34 2790.62 2273.27 2045.60

Fuente: Estudios realizados por el IMT

Page 62: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

44

Estos datos muestran buen ajuste a una distribución Gumbel, como se explica enseguida. El valor inicial del parámetro 𝑏 se calcula como sigue:

𝑏0 =√6

𝜋√

∑ (𝑥𝑗 − �̅�)2𝑛

𝑗=1

𝑛 − 1 = 1000.03855

Donde el promedio de los datos �̅� = 1906.39094.

Con este valor, se usa el procedimiento de la sección 4.4 para obtener la estimación de máxima verosimilitud de los parámetros 𝑎, 𝑏 Gumbel. La solución con Solver se muestra en la figura 5.5.

Figura 5.5 Estimación de parámetros a, b de la Gumbel.

El resultado de la figura 5.5 indica un ajuste de los datos a una distribución Gumbel de parámetros 𝑎 = 1369.34656, 𝑏 = 863.73763.

La figura 5.6 muestra la gráfica Q-Q para este ajuste, donde se aprecia buena cercanía a la recta de igualdad Y = X, excepto por algunos valores en la cola superior, donde hay más distancia respecto a la recta.

Page 63: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

5 ejemplos de uso de ABAL con datos reales

45

Figura 5.6 Gráfica Q-Q de datos de daños materiales en accidentes carreteros

ajustados a una distribución Gumbel.

Los ejemplos mostrados indican que en cada caso se tiene una buena estimación de parámetros para cada una de las distribuciones consideradas. Para un resultado más formal, se pueden correr las respectivas rutinas de ABAL para dar el resultado de estimación completo con algunas de las pruebas estadísticas disponibles.

Page 64: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

46

Page 65: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

47

6. Resultados y conclusiones

Con la ampliación de funcionalidad de la aplicación para bondad de ajuste en línea, que se presenta en la versión ABAL 1.0, se dispone ya de un menú con ocho distribuciones continuas y cinco distribuciones discretas para ajustar datos de modelos probabilísticos de uso común en ingeniería y en el campo del transporte.

La adición de la capacidad de generar gráficas Q-Q y gráficas P-P de los datos modelados, añade la posibilidad de una visualización del ajuste de los datos como un complemento gráfico que facilita la interpretación de los resultados permitiendo que los usuarios tengan reportes de resultados más completos.

Por otra parte, el módulo gráfico que genera densidades de probabilidad que el usuario identifica con los parámetros de su interés, así como la capacidad de tener gráficas múltiples para comparar densidades distintas y sus coberturas de probabilidad entre los límites que el usuario indique, son de utilidad para decidir el modelo de probabilidad que mejor se adapte al contexto de modelación del usuario. Así, cuando en un conjunto de datos el usuario se encuentre con que dos densidades distintas, p. ej. la Weibull y la Logística ajustan satisfactoriamente con sus datos, el usuario puede decidir con base en su discusión teórica, o en los antecedentes de la disciplina en que trabaja (transporte, ingeniería civil, economía, etc.) cuál de las densidades aceptables se adapta mejor a su marco de referencia.

La adición de los ejemplos de ajuste de datos con casos reales para las nuevas distribuciones que se ofrecen en ABAL 1.0, brinda a los usuarios una colección más amplia de datos reales para que pueda realizar sus pruebas y detectar oportunidades de uso de las distribuciones que se muestran en los ejemplos.

Líneas de trabajo futuro

Con el desarrollo e integración de las nuevas funcionalidades de la aplicación para bondad de ajuste en línea, la versión ABAL 1.0 ofrece a los usuarios una herramienta estadística con mayores alcances.

Sin embargo, durante su desarrollo y la revisión de fuentes bibliográficas, surgieron nuevas ideas que podrían brindar al usuario más opciones de cálculo. Por ejemplo, mostrar nuevos estilos de gráficas más atractivas que faciliten la comparación entre diferentes representaciones visuales, y así, brindar una influencia sustancial en los conocimientos que se pueden extraer de la visualización.

Algunos ejemplos de ello son:

Especificar la cantidad de intervalos de clase o categorías.

Page 66: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

48

En algunos casos podría ser útil "encoger" las barras ligeramente para enfatizar la naturaleza categórica del eje. Ver figura 6.1.

Figura 6.1 Enfatizar la categoría del eje.

De forma predeterminada, los diferentes histogramas están "superpuestos" uno encima del otro y, en algunos casos, pueden ser difíciles de distinguir, (Waskom, M., 2012-2020). Una opción es tener una casilla disponible para activar el cambio de la representación visual del histograma a un diagrama de "pasos". Ver figura 6.2.

Figura 6.2 Diagrama de pasos.

Page 67: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

6 Resultados y conclusiones

49

Durante el desarrollo de esta fase, se identificó D3.js, una librería JavaScript para manipular documentos basados en datos. Esta es una buena opción para desarrollar gráficos interactivos, particularmente beneficioso para la comparación de distribuciones, debido a que trabaja directamente sobre las capacidades que los navegadores Web ofrecen.

Con la revisión de ejemplos en la Web, se observó que la ejecución de gráficos con D3 es muy rápida, y además, admite grandes conjuntos de datos y comportamientos dinámicos. En este sentido, se pretende explorar más a fondo esta librería y si resulta viable, se implementará más adelante en ABAL.

Por otro lado, es importante mencionar que, una vez que se actualicen las nuevas funcionalidades en ABAL y sean usadas por un gran número de usuarios en la Web, se espera continuar recibiendo su valiosa retroalimentación. Se evaluarán las que resulten pertinentes y se procederá a realizar los ajustes necesarios. De esta forma se mejorará continuamente la funcionalidad de ABAL. Los últimos cambios serán visibles en la sección de ayuda de la aplicación.

Es importante mencionar que, con las actualizaciones antes mencionadas, ABAL pasará de la versión 0.1 a la 1.0. Conforme se desarrollen más funciones, estas versiones se incrementarán hasta lograr una versión más estable y completa pero sobre todo, con incrementos que sean útiles para los usuarios.

Page 68: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

50

Page 69: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

51

Bibliografía

Andreassen, D.C. (1986). “Intersection accident frequencies”. Traffic Engineering + Control. October 1986, pp. 514-517.

Balaban, J. (2018). Una suave introducción a la estimación de máxima verosimilitud. Towards data science. Recuperado de: https://n9.cl/cjkuv

Bostock, M. (2020). Documentos basados en datos. D3. Recuperado de: https://d3js.org/

Bowling, S.R. et al. (2009). “A logistic approximation to the cumulative normal distribution”. Journal of Industrial Engineering and Management. – 2(1): 114-127 – ISSN: 2013-0953. En: http://www.jiem.org/index.php/jiem/article/viewFile/60/27

Castilla, H. (2018). Resolviendo ejercicio de programación no lineal con Python – Investigación de operaciones. Medium. Recuperado de: https://n9.cl/b2ekw

Cooray, K. (2005). Analyzing lifetime data with long-tailed skewed distribution: the logistic-sinh family. Statistical Modelling Society SMS. En: http://journals.sagepub.com/doi/abs/10.1191/1471082X05st099oa?journalCode=smja.

Deni, S.D. and Jemain, A.A. (2009). “Mixed log series geometric distribution for sequences of dry days”. Atmospheric Research. Vo. 92, Issue 2, April 2009, Pages 236-243.

Desarrolladores de pyOpt. (2008-2014). Optimizadores. pyOpt. Recuperado de: http://www.pyopt.org/reference/optimizers.html

Equipo de desarrollo de SymPy. (2020). Solucionadores. SymPy. Recuperado de: https://docs.sympy.org/latest/modules/solvers/solvers.html

Evans, R. (2018). Estimación de máxima verosimilitud. Quant Econ Notas. Recuperado de: https://n9.cl/efyb8

Forbes, C., Evans, M., Hastings, N. and Peacock, B. (2011). Statistical Distributions.4th Edition. John Wiley & Sons. USA

Jánosikova, L. and Slavik, M. (2014). “Modelling passenger’s arrivals at public transport stops”. European Transport\ Trasporti Europei. Issue 56, paper No. 7. En: http://www.istiee.org/te/papers/N56/P07_56_12_2014.pdf

Page 70: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

Ampliación de funcionalidad de la aplicación ABAL 0.1 para pruebas de bondad de ajuste.

52

Krishnamoorty, K. (2006). Handbook of Statistical Distributions with Applications. Chapman & Hall/CRC. USA.

Nielsen, Mark A. (2011). Parameter Estimation for the Tw-Parameter Weibull Distribution. Nielsen, All Theses and Dissertations. 2509. Brigham Young University. Disponible en: https://scholarsarchive.byu.edu/etd/2509

Önoz, B. and Bayazit, M. (1995). “Best.fit distribution of largest available flood samples”. Journal of Hydrology. 167 (1-4): 195-208. En: https://www.researchgate.net/publication/222213660_Best-fit_distribution_of_ largest_available_flood_samples

Perktold, J. Seabold, S. Taylor, J. (2009-2019). Estimación de máxima verosimilitud (modelos genéricos). Statsmodels v0.13.0.dev0 (+129). Recuperado de: https://www.statsmodels.org/dev/examples/notebooks/generated/generic_mle.html

Rajkai, K; Kabos, S; Van Genuchten, M.T. and Jansson, P.E. (1996). “Estimation of water-retention characteristics from the bulk density of Swedish soils”. Soil Science 161(12):832-845. En: https://www.researchgate.net/publication/234203956_ Estimation_of_water-retention_characteristics_from_the_bulk_density_of_ Swedish_soils

Rehman, K; Burton, P.W. and Weatherill, G.A. (2018). “Application of Gumbel I and Monte Carlo methods to assess seismic hazard in and around Pakistan”. Journal of Seismology .Volume 22, Issue 3, pp 575-588. En: https://link.springer.com /article/10.1007/s10950-017-9723-8

TutorVista.com. (2018). Logarithmic Distribution. Disponible en: https://math.tutorvista.com/statistics/logarathmic-distribution.html

Van beek, P. (1978). “An application of the logistic density on a stochastic continuous review stock control model”. Unternehmensforschung Operations Research 22(1). En: https://www.researchgate.net/publication/40167730_An_application_of_the_ logistic _density_on_a_stochastic_continuous_review_stock_control_model

Waskom, M. (2012-2020). Visualización de distribuciones de datos. Seaborn. Recuperado de: https://seaborn.pydata.org/tutorial/distributions.html

Xu, Y.L. (1995). “Model- and full-scale comparison of fatigue-related characteristics of wind pressures on the Texas Tech Building”. Journal of Wind Engineering and Industrial Aerodynamics. 58(3):147-173. En: https://www.researchgate .net/publication/222726298_Model-_and_full-scale_comparison_of_fatigue-related_characteristics_of_wind_pressures_on_the_Texas_Tech_Building

Zaiontz, Charles. (2019). Distribution Fitting via Maximum Likelihood. Real Statistics Using Excel. Disponible en: https://www.real-statistics.com/distribution-fitting/distribution-fitting-via-maximum-likelihood/

Page 71: Ampliación de funcionalidad de la aplicación ABAL 0.1 para

[email protected]

http://www.imt.mx/

Km 12+000 Carretera Estatal 431 “El Colorado Galindo” Parque Tecnológico San Fandila, Mpio. Pedro Escobedo, Querétaro, México. C.P. 76703 Tel: +52 (442) 216 97 77 ext. 2610 Fax: +52 (442) 216 9671