4
1 Evaluación de la normalidad en datos de violencia interpersonal en Colombia, 2013: primera parte Introducción En esta primera parte se explicarán los aspectos de medición de la norma- lidad de los datos, las bases conceptuales utilizadas para evaluar la normalidad y las herramientas metodológicas aplicables al proceso de eva- luación de la simetría. Se usarán los datos de violencia interpersonal para ejemplificar las medidas y pruebas estadísticas. El Índice Compuesto de Necesidad en Salud (ICNS) es una representación simplificada de la problemática de salud identificada en una unidad geográ- fica, cuya función es medir las necesidades de salud de la población. Un ICNS incluye datos sobre la morbilidad, mortalidad y por su estrecha relación con los Determinantes Sociales de la Salud incorpora los indicado- res demográficos, socioeconómicos, servicios y cobertura, género, etnici- dad, derechos humanos y sociales. El ICNS permite caracterizar por diversas variables e indicadores las nece- sidades en salud de un territorio y facilita la priorización de los eventos de interés en salud pública en lo que respecta a la planificación y toma de de- cisiones en la provisión de los servicios de salud. 1,2 El ICNS requiere de tres condiciones básicas: 1) la evaluación de la norma- lidad de las variables que se incluirán, 2) la definición clara del atributo que se desea medir y 3) la existencia de información confiable para poder llevar a cabo la medición. Estas condiciones son indispensables para poder construir el ICNS. 3 Para la aplicación del ICNS, se debe evaluar la normalidad de los indicado- res o datos que se incluyan dentro del mismo y en caso de encontrar datos asimétricos se deben transformar o normalizar. A continuación se describen las medidas estadísticas utilizados para eva- luar la normalidad de los datos, entre los que se encuentran las medidas de tendencia central , posición y dispersión. La selección de una u otra técnica, dependerá de las características de la variable. Metodología Se pueden identificar tres formas de evaluar la normalidad de los datos: 1) medidas de tendencia central, que muestran en torno a qué valor se agrupan los datos, 2) medidas de dispersión, que hacen referencia a cómo quedan agrupados los datos alrededor de una medida de centralización, 3) medidas de posición, que permiten dividir un conjunto de datos en grupos con el mismo número de individuos e identificar datos atípicos. 4,5 1. Medidas de tendencia central y dispersión Evaluación de la normalidad de los datos La homocedasticidad u homogeneidad de varianzas hace referencia a la distribución normal de los errores en modelo de regresión lineal; y la hete- rocedasticidad consiste en que la varianza de los datos muéstrales tienen una distribución no normal o no constante. La estadística descriptiva permite determinar la tendencia o patrones, mos- trar y cuantificar dispersión y descubrir la forma de los datos. También se utiliza para evaluar la simetría, normalidad, homocedasticidad y la curtosis de los datos. 6 El método más práctico para evaluar la normalidad de los datos consiste en la comparación de la media y la mediana, que son medidas de tenden- cia central. La media es el resultado de dividir la suma de todas las obser- vaciones entre el número de ellas, en tanto, la mediana es el punto central de una serie de datos ordenados de forma ascendente o descendente. 7 (Figura 1C) Cuando tenemos una distribución simétrica, la media y la mediana coinci- den en los valores (Figura 1C). En cambio, en datos asimétricos la media y la mediana no coinciden; en el caso de asimetría a la derecha la media es mayor a la mediana. (Figura 1A) En la asimetría a la izquierda la media es menor la mediana. (Figura 1B) En la figura 1D se muestran las relaciones entre la desviación estándar, la media y la curva normal. El área bajo la curva comprendida entre los valo- res situados aproximadamente a una desviación estándar de la media es igual a 0,68. En concreto, existe un 68,3% de posibilidades de observar un valor comprendido en el intervalo. Mientras que dos desviaciones estándar a la media son igual a 0,95, es decir hay 95,5% de probabilidad de encon- trar el valor en este intervalo. A tres desviaciones estándar de la media es igual 0,99 es decir existe la posibilidad de 99,7% de encontrar el dato en este rango. 8 Figura 1. Medidas de tendencia central Fuente: elaboración propia En la evaluación de la normalidad de los datos es necesario precisar sobre los datos atípicos u outliers”, registros extraños cuyo valor es mucho ma- yor o menor de lo esperado. Una forma de identificarlos es estimando los cuartiles, que son medidas de posición; a partir de los cuartiles se calcula el rango intercuartílico definido como la distancia que hay entre el primer y el tercer cuartil. 9 La fórmula del Rango Intercuartílico corresponde a RI = Q3- Q1 2 En la que: RI: Rango Intercuartílico Q3: tercer cuartil Q1: primer cuartil Se consideran datos atípicos aquellos valores que sean inferiores al primer cuartil menos 1,5 veces el rango intercuartílico o superior al tercer cuartil más 1,5 veces el rango intercuartílico. (Figura 2) Un dato es atípico cuando: Julio - agosto 2015. Vol. 3, No. 4 Boletín Epidemiológico / MSPS, Vol 3, No. 4 (2015) La media ± 1 desviación estándar = cubre el 68,3% de los casos La media ± 2 desviación estándar = cubre el 95,5% de los casos La media ± 3 desviación estándar = cubre el 99,7% de los casos • Si un dato es < Q1 1,5 (RI) • Si un dato es > Q3 + 1,5 (RI)

Evaluación de la normalidad en datos de violencia ... · decir los datos de violencia interpersonal están muy concentrados en la me- ... San Andrés 490 Datos atipicos ... ilustrados

  • Upload
    dodan

  • View
    218

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Evaluación de la normalidad en datos de violencia ... · decir los datos de violencia interpersonal están muy concentrados en la me- ... San Andrés 490 Datos atipicos ... ilustrados

1

Evaluación de la normalidad en datos de violencia interpersonal en Colombia, 2013: primera parte

Introducción

En esta primera parte se explicarán los aspectos de medición de la norma-lidad de los datos, las bases conceptuales utilizadas para evaluar la normalidad y las herramientas metodológicas aplicables al proceso de eva-luación de la simetría. Se usarán los datos de violencia interpersonal para ejemplificar las medidas y pruebas estadísticas. El Índice Compuesto de Necesidad en Salud (ICNS) es una representación simplificada de la problemática de salud identificada en una unidad geográ-fica, cuya función es medir las necesidades de salud de la población. Un ICNS incluye datos sobre la morbilidad, mortalidad y por su estrecha relación con los Determinantes Sociales de la Salud incorpora los indicado-res demográficos, socioeconómicos, servicios y cobertura, género, etnici-dad, derechos humanos y sociales. El ICNS permite caracterizar por diversas variables e indicadores las nece-sidades en salud de un territorio y facilita la priorización de los eventos de interés en salud pública en lo que respecta a la planificación y toma de de-cisiones en la provisión de los servicios de salud.1,2 El ICNS requiere de tres condiciones básicas: 1) la evaluación de la norma-lidad de las variables que se incluirán, 2) la definición clara del atributo que se desea medir y 3) la existencia de información confiable para poder llevar a cabo la medición. Estas condiciones son indispensables para poder construir el ICNS. 3

Para la aplicación del ICNS, se debe evaluar la normalidad de los indicado-res o datos que se incluyan dentro del mismo y en caso de encontrar datos asimétricos se deben transformar o normalizar. A continuación se describen las medidas estadísticas utilizados para eva-luar la normalidad de los datos, entre los que se encuentran las medidas de tendencia central, posición y dispersión. La selección de una u otra técnica, dependerá de las características de la variable.

Metodología

Se pueden identificar tres formas de evaluar la normalidad de los datos: 1) medidas de tendencia central, que muestran en torno a qué valor se agrupan los datos, 2) medidas de dispersión, que hacen referencia a cómo quedan agrupados los datos alrededor de una medida de centralización, 3) medidas de posición, que permiten dividir un conjunto de datos en grupos con el mismo número de individuos e identificar datos atípicos.4,5

1. Medidas de tendencia central y dispersión Evaluación de la normalidad de los datos La homocedasticidad u homogeneidad de varianzas hace referencia a la distribución normal de los errores en modelo de regresión lineal; y la hete-rocedasticidad consiste en que la varianza de los datos muéstrales tienen una distribución no normal o no constante. La estadística descriptiva permite determinar la tendencia o patrones, mos-trar y cuantificar dispersión y descubrir la forma de los datos. También se utiliza para evaluar la simetría, normalidad, homocedasticidad y la curtosis de los datos.6 El método más práctico para evaluar la normalidad de los datos consiste en la comparación de la media y la mediana, que son medidas de tenden-cia central. La media es el resultado de dividir la suma de todas las obser-vaciones entre el número de ellas, en tanto, la mediana es el punto central de una serie de datos ordenados de forma ascendente o descendente.7 (Figura 1C)

Cuando tenemos una distribución simétrica, la media y la mediana coinci-den en los valores (Figura 1C). En cambio, en datos asimétricos la media y la mediana no coinciden; en el caso de asimetría a la derecha la media es mayor a la mediana. (Figura 1A) En la asimetría a la izquierda la media es menor la mediana. (Figura 1B) En la figura 1D se muestran las relaciones entre la desviación estándar, la media y la curva normal. El área bajo la curva comprendida entre los valo-res situados aproximadamente a una desviación estándar de la media es igual a 0,68. En concreto, existe un 68,3% de posibilidades de observar un valor comprendido en el intervalo. Mientras que dos desviaciones estándar a la media son igual a 0,95, es decir hay 95,5% de probabilidad de encon-trar el valor en este intervalo. A tres desviaciones estándar de la media es igual 0,99 es decir existe la posibilidad de 99,7% de encontrar el dato en este rango.8 Figura 1. Medidas de tendencia central Fuente: elaboración propia

En la evaluación de la normalidad de los datos es necesario precisar sobre los datos atípicos u “outliers”, registros extraños cuyo valor es mucho ma-yor o menor de lo esperado. Una forma de identificarlos es estimando los cuartiles, que son medidas de posición; a partir de los cuartiles se calcula el rango intercuartílico definido como la distancia que hay entre el primer y el tercer cuartil.9 La fórmula del Rango Intercuartílico corresponde a RI = Q3- Q1 2 En la que: RI: Rango Intercuartílico Q3: tercer cuartil Q1: primer cuartil Se consideran datos atípicos aquellos valores que sean inferiores al primer cuartil menos 1,5 veces el rango intercuartílico o superior al tercer cuartil más 1,5 veces el rango intercuartílico. (Figura 2) Un dato es atípico cuando:

Julio - agosto 2015. Vol. 3, No. 4

Boletín Epidemiológico / MSPS, Vol 3, No. 4 (2015)

La media ± 1 desviación estándar = cubre el 68,3% de los casos La media ± 2 desviación estándar = cubre el 95,5% de los casos La media ± 3 desviación estándar = cubre el 99,7% de los casos

• Si un dato es < Q1 – 1,5 (RI) • Si un dato es > Q3 + 1,5 (RI)

Page 2: Evaluación de la normalidad en datos de violencia ... · decir los datos de violencia interpersonal están muy concentrados en la me- ... San Andrés 490 Datos atipicos ... ilustrados

2

Figura 2. Medidas de posición y de forma

Q1: primer cuartil Q2: segundo cuartil Q3: tercer cuartil Q4: cuarto cuartil Fuente: elaboración propia

Medidas de forma

Otra forma de evaluar la distribución de los datos es a través de la asime-tría, la cual permite interpretar la forma de la distribución respecto a ser o no simétrica. En una distribución simétrica la media y la mediana coin-ciden en los valores. La distribución es asimétrica positiva cuando la media-na es menor a la media, presentando la curva de alargamiento hacia la de-recha. En cambio, la asimetría es negativa cuando el alargamiento se pro-duce hacia la izquierda en este caso, la mediana es menor a la media. (Figura 1) La expresión matemática de la asimetría de Fisher:

En la que: AS: Asimetría ∑ni* (Xi – X)3: suma de las desviaciones de la media de todas las observa-ciones del grupo n: total de observaciones del grupo d3: cubo de la desviación estándar Si la asimetría es mayor a cero la distribución será asimétrica positiva y los datos se desplazan hacia la derecha (As>0). En tanto la asimetría será negativa si se desplazan los datos hacia la iz-quierda y se obtienen valores menores a cero (As<0). La distribución será simétrica si hay el mismo número de datos a izquierda y derecha de la media. En este caso coinciden la media y la mediana. La distribución se adapta a la forma de la campana de Gauss o distribución normal (As=0).10

Curtosis o apuntamiento o concentración central Es una medida de la altura de la curva y por tanto, mide el grado de apunta-miento o aplastamiento de la figura de la distribución de los datos. Se dife-rencian tres grandes categorías de apuntamiento o Curtosis11,12 (Figura 3):

Distribución platicúrtica o apuntamiento negativo: indica que en las colas hay más casos acumulados que en el centro de una distribución normal, es decir muy poca concentración de datos en la media, presentando una forma muy achatada.

Distribución leptocúrtica o apuntamiento positivo: presenta un elevado gra-do de concentración de los datos alrededor de los valores centrales de la variable (media), siendo una curva muy apuntada.

Distribución mesocúrtica o apuntamiento normal: muestra un grado de con-centración medio alrededor de los valores centrales de la variable (el mis-mo que presenta una distribución normal).

La expresión matemática de la Curtosis:

En la que: K: curtosis ∑ni* (Xi – X)4: suma de las desviaciones de la media de todas las observa-ciones del grupo n: total de observaciones del grupo d4: cuadrática de la desviación estándar Si K es igual a tres, la distribución es normal o mesocúrtica. Si K es mayor a tres, la distribución es apuntada o leptocúrtica. Si K es menor a tres, la distribución es achatada o platicúrtica.

Figura 3. Medidas de forma, curtosis o apuntamiento

Fuente: elaboración propia

Ejemplificación Medidas de tendencia central, dispersión, posición y forma

Para hacer la evaluación de la normalidad es necesario previamen-te estimar el promedio o media, la mediana, la desviación estándar y el rango intercuartílico.

Para efectuar estas estimaciones se usará el programa Excel. Dis-ponga los datos en este programa y siga los siguientes pasos para la estimación de las medidas de tendencia central, dispersión, posición y forma.

Para el cálculo de las medidas de tendencia central, dispersión, posi-

ción y forma vaya a la barra de herramientas y seleccione la opción Datos y escoja la opción Análisis de datos.

Aparece el siguiente recuadro de Análisis de datos; seleccione la opción Estadística descriptiva y dé clic en aceptar.

Se abrirá el recuadro de diálogo Estadística descriptiva; en la op-ción Rango de Entrada seleccione la matriz de datos de la cual desea estimar las medidas descriptivas.

3

)(* 3

n

XXiniAS

3

)(*

4

4

n

XXiniK

2

Boletín Epidemiológico / MSPS, Vol 3, No. 4 (2015)

1

Page 3: Evaluación de la normalidad en datos de violencia ... · decir los datos de violencia interpersonal están muy concentrados en la me- ... San Andrés 490 Datos atipicos ... ilustrados

3

Luego escoja la opción Rango de salida y seleccione la celda donde se mostrarán los resultados. Después escoja la opción Resumen de estadísticas y dé clic sobre Aceptar.

Aparecerán los resultados que muestran los estadísticos de ten-dencia central, dispersión, posición y forma.

Resultados

La media (4.812) y mediana (1.414) de los casos de violencia interpersonal describen datos asimétricos hacia la derecha. El coeficiente de asimetría fue 4,19, ratificando que los datos se desplazan hacia la derecha, la Curto-sis fue 20,42, la curva será leptocúrtica o apuntamiento positivo; es decir los datos de violencia interpersonal están muy concentrados en la me-dia, siendo una curva muy apuntada. Si el resultado obtenido hubiera sido cero, la distribución de datos sería simétrica. (Figura 2) El rango intercuartílico para la violencia interpersonal en 2013, fue 1.954,5. Los valores de 6.657,5 o menores a 1.160,5 son considerados atípicos. (Figura 2)

Figura 2. Evaluación de la normalidad en datos de violencia interpersonal, Colombia 2013

Fuente: elaboración propia

3

4

Boletín Epidemiológico / MSPS, Vol 3, No. 4 (2015)

Departamento

Casos de

violencia

interpersonal

2013

Guainía 1

Vaupés 3

Vichada 131

Guaviare 249

Amazonas 297

San Andrés 490 Datos atipicos

Chocó 519

Putumayo 575

Caquetá 794 Q1Arauca 908

La Guajira 1143

Sucre 1830

Casanare 1918 RI:1.954,5Córdoba 2000

Risaralda 2625

Cauca 2685

Caldas 2733

Quindio 2798

Cesar 3154

Magdalena 3662

Norte de Santander 4202

Bolívar 4238

Meta 4406

Huila 4670

Tolima 4703 Q3Nariño 4842

Boyacá 5271

Atlántico 5854

Santander 8548

Valle del Cauca 11567

Cundinamarca 12964 Datos atipicos

Antioquia 13585

Bogotá, D.C. 45433

Colombia 158.798

Media o promedio 4812,1

Mediana 2733

Deviación estándar 8123,08

Coeficiente de asimetría 4,19

Curtosis 20,42

Cuartil 1- Q1 794

Cuartil 2- Q2 2733

Cuartil 3 - Q3 4703

Cuartil 4 - Q4 45433

Rango intercuartilico: (4.703 -794)/2= 1.954,5

= 1.160,50

= 6.657,50

Datos atipicos del cuartil 1 - Q1

Datos atipicos del cuartil 3 - Q3

1.954,5 - 794

1954,5 - 4.703

Page 4: Evaluación de la normalidad en datos de violencia ... · decir los datos de violencia interpersonal están muy concentrados en la me- ... San Andrés 490 Datos atipicos ... ilustrados

4

Conclusión

En este boletín se han mostrado los pasos para la valoración de la normali-dad, ilustrados mediante ejemplos. Conviene hacer notar que la evaluación de la simetría de los datos se puede realizar a través de medidas de ten-dencia central, medidas de posición y de dispersión; otros test que se pue-den son las pruebas gráficas de normalidad y pruebas de normalidad. Cabe señalar que los recursos explicados en el boletín deberán ser utiliza-dos para el afinamiento de la normalidad de los datos, paso previo al análi-sis de toda base de datos. Finalmente, la importancia de estas medidas radica en el uso extendido de la distribución normal o Gaussiana en muchos parámetros en el campo de la salud que permite una comprensión del comportamiento de los datos, como la identificación de casos atípicos. Además facilita cumplir con la con-dición de normalidad para la construcción del ICNS.

Bibliografía

1. Castillo S C. Copyright 2014. Johns Hopkins University - Bloomberg School of Public Health - Global Public Health Observatory prepared for the World Health Organization - Gender, Equity and Human Rights. 2. Arreola L, Doubova S, Morales H, Casas P, Pérez R. Estudio de las necesida-des de salud en atención primaria mediante el diagnóstico de salud de la familia disponible en http://www.elsevier.es/es-revista-atencion-primaria-27-articulo-estudio-las-necesidades-salud-atencion-primaria-mediante-13094054. Vol. 38.(07) 2006. consultado 23 de octubre del 2015. 3. Comisión Económica para América Latina y el Caribe (CEPAL) Schuschny A.Soto H. Guía metodológica Diseño de indicadores compuestos de desarro-llo sostenible. Naciones Unidas. 2009 4. Pértegas D S., Pita S. Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña. Cad Aten Primaria 2001; 8: 268-274. 5.Estadísticos de forma de la distribución, Disponible en http://www.mat.uson.mx/~ftapia/Lecturas%20Adicionales%20(C%C3%B3mo%20dise%C3%B1ar%20una%20encuesta)/InterpretacionMedidasForma.pdf consultado el 4 de septiembre de 2015 6. Wayne W. Daniel, Bioestadística. Base para el análisis de las ciencias de la salud. Editorial Limusa S.A. Grupo Noriega. Editores. 2005. 7.Estadística descriptiva. Disponible en http://departamentos.uca.es/C146/pag_personal/f alvarez/documentos/CC%20Trabajo%20Tema%201.pdf consultado el 8 de junio de 2015 8.Medidas de tendencia central y dispersión. disponible http://bvs.panalimentos.org/local/file/inclusiones2008/OPS-GSS%20Nivel%20III%20Guatemala/5.%20%20Materiales%20extras/Documentos%20de%20apoyo%20ETAs/Libro%203030/Unidad%203%20final.pdf/. consultado el 20 de septiembre de 2015 9.Schneider M.C., Salgado C., Bacallao J., Loyola E., Mujica O., et al. (2002) Métodos de medición de las desigualdades de salud. Revista Panamericana Salud Pública 12(6). 10.Asimetría y Curtosis disponible en www.universoformulas.com/estadistica/descriptiva/asimetria-curtosis/ consultado el 20 de julio de 2015 11.Medidas de frecuencia usadas en epidemiología disponible en http://bvs.panalimentos.org/local/file/inclusiones2008/WHO_Global_%20Salm_Surv_curso_capacit_Lab_OUT2008/Epidemiologia/Refer%EAncias/Documentos%20DTA/Libro%203030/Unidad%202%20final.pdf. consultado el 20 de septiembre de 2015 12.Medidas de forma: Coeficiente de curtosis disponible en http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_136_36.html. con-sultado el 22 de septiembre 2015

Preparado por Astrid Berena Herrera López.

Grupo de Análisis de Situación de Salud (ASIS).

Dirección de Epidemiología y Demografía.

Ministerio de Salud y Protección Social.

Contacto: [email protected].

Tel. 330 5000 Ext: 1753 .

Boletín Epidemiológico / MSPS, Vol 3, No. 4 (2015)