23
PLAN DE ANALISIS DE DATOS Msp. Leopoldo Walter Bejarano Benites Para diseñar un plan de análisis de los datos que se han recolectado, se requiere tener en cuenta los objetivos de la investigación (o el diseño del estudio). Porque de los objetivos, vamos a identificar que variables se van ha considerar, tipos de variables, y las escalas de medición que le corresponden a cada una de ellas ; además, permiten establecer que tipo de relación podrían tener entre ellas. Por otro lado, hay que tener en cuenta que la población que es objeto de estudio este bien definida y si la muestra que se seleccionó resultó ser representativa con un tamaño mínimo apropiado, para que las conclusiones que se obtengan del análisis sean válidos. Si el procesamiento se realiza con la ayuda de una computadora, es necesario que los datos recolectados según las variables consideradas, sean registrados en una base de datos, para lo cuál se podría utilizar la hoja de cálculo Excel o la hoja de cálculo del paquete estadístico que va ha utilizar. Para el procesamiento de los datos según un diseño pre- establecido, se tiene que utilizar paquetes estadísticos como: SPSS, Minitab, Stata, etc. Para elaborar un plan de análisis depende del tipo de investigación según el manejo de variables independientes: Experimental u observacional. Si la investigación es experimental, es decir, un experimento controlado, entonces, no hay inconvenientes en establecer la técnica estadística si el análisis es bivariante o multivariante, porque las posibles variables confusoras que se podrían presentar se controlan al momento de elaborar el diseño respectivo. Pero si la investigación es observacional, entonces, cuando se realiza un análisis bivariante, la información que se obtiene casi siempre está viciada y para purificar dicha relación en el análisis, se tendría que controlar una

Analisis de Datos

Embed Size (px)

DESCRIPTION

ok

Citation preview

Page 1: Analisis de Datos

PLAN DE ANALISIS DE DATOS

Msp. Leopoldo Walter Bejarano Benites

Para diseñar un plan de análisis de los datos que se han recolectado, se requiere tener en cuenta los objetivos de la investigación (o el diseño del estudio). Porque de los objetivos, vamos a identificar que variables se van ha considerar, tipos de variables, y las escalas de medición que le corresponden a cada una de ellas; además, permiten establecer que tipo de relación podrían tener entre ellas. Por otro lado, hay que tener en cuenta que la población que es objeto de estudio este bien definida y si la muestra que se seleccionó resultó ser representativa con un tamaño mínimo apropiado, para que las conclusiones que se obtengan del análisis sean válidos.Si el procesamiento se realiza con la ayuda de una computadora, es necesario que los datos recolectados según las variables consideradas, sean registrados en una base de datos, para lo cuál se podría utilizar la hoja de cálculo Excel o la hoja de cálculo del paquete estadístico que va ha utilizar. Para el procesamiento de los datos según un diseño pre- establecido, se tiene que utilizar paquetes estadísticos como: SPSS, Minitab, Stata, etc.

Para elaborar un plan de análisis depende del tipo de investigación según el manejo de variables independientes: Experimental u observacional.Si la investigación es experimental, es decir, un experimento controlado, entonces, no hay inconvenientes en establecer la técnica estadística si el análisis es bivariante o multivariante, porque las posibles variables confusoras que se podrían presentar se controlan al momento de elaborar el diseño respectivo. Pero si la investigación es observacional, entonces, cuando se realiza un análisis bivariante, la información que se obtiene casi siempre está viciada y para purificar dicha relación en el análisis, se tendría que controlar una serie de variables confusoras, por consiguiente, se tiene que aplicar el análisis multivariado.

El plan de análisis de los datos puede ser univariante, bivariante o multivariante.

I. Plan de análisis univariante.

Si el tipo de estudio es observacional, descriptivo y transversal; retrospectivo de casos; o prospectivo de una sola cohorte, mediante el análisis univariante se podría presentar la información en tablas estadísticas de una sola entrada, gráficos de una sola variable, etc. Si la variable es cualitativa se podría calcular porcentajes, tasas o razones, etc. Si la variable es continua, se puede calcular media aritmética, mediana, moda, percentiles, amplitud, varianza, error estándar y coeficiente de variación.

Page 2: Analisis de Datos

En cuanto a la aplicabilidad de la Inferencia Estadística, es factible construir intervalos de confianza para una media aritmética, proporción, razón o una varianza; además se podrían contrastar hipótesis con respecto a supuestos que se podrían establecer en los parámetros correspondientes de interés.

Ejemplo 1. Análisis univariante de los datos.

En el cuadro 1 y gráfico 1 se presenta el diagnóstico nutricional de 380 niños correspondientes al distrito de Sócota de la provincia de Cutervo de la III región Nor-Oriental del Marañon.

Los 380 niños evaluados constituyen una muestra aleatoria seleccionada de la población objetivo, por consiguiente podemos estimar el porcentaje de desnutridos y que corresponden al 71.3% (este porcentaje constituye la proporción de prevalencia real de la desnutrición).

Tabla 1

Distribución de los niños menores de 6 años según diagnóstico nutricional. Sócota-Cutervo. III Región Nor_Oriental del Marañon.1993

Diagnóstico nutricional Nº %

NormalDesnutrido agudoEnano nutricional (+)Enano nutricional (++)Enano nutricional (+++)ENA1

Obeso

95 25.0 11 2.9115 30.3 85 22.4 30 7.9 30 7.9 14 3.6

Total 380 100.0

(1) ENANO NUTRICIONAL ADELGAZADO

Page 3: Analisis de Datos

II. Plan de análisis bivariante.

Si el interés es establecer y evaluar una asociación entre dos variables, entonces se recurre al análisis bivariante.Si los datos son clasificados de acuerdo a dos variables cualitativas, se genera automáticamente una tabla de contingencia, el cuál permite evaluar si las variables son independientes o están relacionadas, mediante la utilización de la prueba Ji-cuadrado (X²).

Ejemplo 2. El interés es evaluar la asociación entre el diagnóstico nutricional y el sexo en niños de 12 meses de edad o más. Con la información proporcionada en tabla 2 y según el resultado del Ji-cuadrado, se tiene que el sexo al que pertenece el niño está asociado con su diagnóstico nutricional (p<0.05). El gráfico 2, resalta la diferencia observada entre las proporciones de malnutridos entre ambos sexos.

Tabla 2

Page 4: Analisis de Datos

Diagnóstico nutricional de niños de 12 meses de edad o más según sexo. AAHH Bayóvar- Canto Grande_San Juan de Lurigancho-Lima.1986.

Diagnóstico nutricional

Sexo Total

Nº %Masculino Nº %

Femenino Nº %

NormalMalnutrido

21 26.9 57 73.1

42 43.3 55 56.7

63 36 112 64

Total 78 100.0 97 100.0 175 100

X²(1) = 5.03 (p<0.05)

Si se tiene varias poblaciones, y si de cada una de ellas se seleccionan muestras aleatorias y si los datos de estas muestras se clasifican de acuerdo a una característica cualitativa, entonces, lo que se quiere evaluar es si las poblaciones de interés son o no homogéneas según la característica que se está considerando, mediante la utilización de la prueba Ji-cuadrado (X²). ( Estos esquemas se presentan en estudios comparativos)

Ejemplo 3. Se desea comparar la proporción de curabilidad del tratamiento con quimioterapia en tres tipos de enfermedades oncológicas. Los resultados que se obtuvieron fueron:

Tabla 3

Curabilidad Tipo de Enfermedad oncológica

A Nº %

B Nº %

C Nº %

Si No

37 86.0 6 14.0

23 65.7 12 34.3

27 60.0 18 40.0

Total 43 100.0 35 100.0 45 100.0

X²(2) = 7.8 (p<0.05)

Según el valor obtenido del Ji-cuadrado, se decide que las muestras no provienen de poblaciones homogéneas (p<0.05), por consiguiente la proporción de cura del tratamiento con quimioterapia son diferentes entre los tres tipos de enfermedades oncológicas.Si el interés es evaluar factores de riesgo de un determinado daño, entonces,

Page 5: Analisis de Datos

para cuantificar la fuerza de asociación entre el factor y el daño en cuestión, se utiliza el riesgo relativo (RR) si el estudio es comparativo prospectivo, y se utiliza el odds ratio (OR) si se tiene un estudio comparativo tipo caso-control. Los cálculos de estas medidas de asociación se realizan de acuerdo a los siguientes esquemas:

Esquema I.

Tabla 4

Estructura de los datos en un estudio comparativo-prospectivo.

Enfermedad Si No Total ------------------------------------ Si a b a + b Expuestos Al Factor No c d c + d -------------------------------------

Las tasas de incidencia estimadas en los expuestos y no expuestos son: a/(a+b) y c/(c+d) respectivamente.

El riego relativo (RR) de los expuestos está dado por:

a/(a+b) RR = ----------- b/(c+d)

Esquema II.

Tabla 5

Estructura de los datos en un estudio caso-control.

Enfermedad Sí No ------------------------------ Si a b ExpuestosAl Factor No c d ------------------------------- Total a+ c b+ d

Page 6: Analisis de Datos

Como se tiene conocimiento, en este tipo de estudio, de los expuestos y no expuestos no podemos determinar las tasas de incidencia, por consiguiente, no podemos calcular el riesgo relativo RR.En esta situación, tenemos que determinar un valor aproximado del riesgo relativo RR mediante el odds ratio (OR) (se denomina también razón de disparidades) que expresa también la fuerza de asociación entre los posibles factores de riesgo y la enfermedad en cuestión. Para calcular OR se utiliza la siguiente fórmula:

a*d OR =------ b*c

Nota1: Se puede construir intervalos de confianza tanto para el riesgo relativo o el odds ratio. Si el intervalo contiene a la unidad se dice que RR no es significativo, por consiguiente, el factor no se considera de riesgo de dicha enfermedad.

Nota2: El valor de OR será una buena aproximación de RR, cuando la tasa de incidencia del daño en cuestión es muy pequeña (es decir menor del 1%).

Cuando ambas variables son cuantitativas, podríamos pensar en un análisis de correlación o regresión lineal simple.Si se tienen las variables X e Y, de la cuál no podemos diferenciar cual de ellas es variable dependiente o independiente y si estamos interesados en cuantificar el grado de asociación lineal entre ambas variables (positiva o negativa), se utilizará el coeficiente de correlación lineal de Pearson (Si las variables están mediadas a escala ordinal, se recomienda utilizar el coeficiente de correlación de Spearman).Si las variables de interés a una de ellas se le denomina dependiente (Y) y a la otra independiente (X), para establecer la relación lineal entre Y en función de X, se considera el modelo de regresión lineal simple. Si el estudio es experimental, se puede establecer una relación causa-efecto como consecuencia de la aplicación de este modelo, porque podemos manipular la variable X. Si el estudio es observacional, el propósito de la aplicación del modelo es predecir el valor de la variable respuesta que corresponda al valor de la variable independiente.

III. PLAN DE ANALISIS MULTIVARIANTE

Pero si la investigación es observacional aplicamos el análisis multivariante que interviene cuando estamos interesados en analizar simultáneamente tres o más variables. El modelo estadístico a considerar cuando de un conjunto de variables, se considera a veces a una de ellas como variable dependiente y

Page 7: Analisis de Datos

las otras como independiente. Hay una serie de técnicas que podemos abordar para analizar los datos, sin embargo, vamos a considerar algunas que se dan a continuación:Si las variables son cuantitativas continuas podemos estar interesados en aplicar análisis de correlación o regresión lineal múltiple.Si del conjunto de variables no podemos distinguir cual es variable dependiente y cuales son las independientes, entonces las técnicas apropiadas para el análisis de datos, serán las correlaciones simples, parciales o múltiple.Si del conjunto de variables se identifica a una de ellas como dependiente (variable continua) y las otras como independientes, entonces, la técnica apropiada para el análisis de datos será la regresión lineal múltiple.Si la variable respuesta es cualitativa dicotómica (0 y 1) i las variables independientes todas cuantitativas, entonces el modelo apropiado para analizar los datos será la regresión logística.Si las variables de interés son categóricas y si no podemos identificar cual de ellas se considera como variable dependiente, entonces, el modelo apropiado para analizar los datos es el Log-lineal.

Ahora, consideremos algunos ejemplos para ilustrar estas técnicas:

Objetivo General del estudio

A. EJEMPLO DE UN ANALISIS DE REGRESION LINEAL MULTIPLE.

El análisis de regresión lineal múltiple es útil para medir la forma probable de relación entre las variables y cuando se utiliza este método de análisis, el objetivo final es predecir el valor de la variable respuesta que corresponde a un conjunto de valores de las otras variables. Consideremos un ejemplo extraido de un texto de estadística aplicada de Walpole-Myers.

Los siguientes datos que se dan a continuación corresponden a las mediciones de nueve recién nacidos de las siguientes variables:

Y : TALLA DEL RECIEN NACIDO (Cms) X4: TAMAÑO DE TORAX AL NACER (Cms) X2: TALLA AL NACER (Cms) X3: PESO AL NACER (Kgs) X1: EDAD (Días)

Page 8: Analisis de Datos

Y X1 X2 X3 X4

57.50 78.00 48.20 2.75 29.50 52.80 69.00 45.50 2.15 26.30 61.30 77.00 46.30 4.41 32.20 67.00 88.00 49.00 5.52 36.50 53.50 67.00 43.00 3.21 27.20 62.70 80.00 48.00 4.32 27.70 56.20 74.00 48.00 2.31 28.30 68.50 94.00 53.00 4.30 30.30 69.20 102.00 58.00 3.71 28.70

El propósito del experimento es llegar a la estimación de una ecuación apropiada que relacione talla del recién nacido con todas o un subconjunto de las variables independientes.

Empleando la técnica de mínimos cuadrados y con la ayuda del paquete estadístico SPSS se obtiene la siguiente ecuación de regresión estimada de Y en relación de X1, X2, X3, X4.

^y = 7.1475 + 0.1000x1 + 0.7264x2 + 3.076x3 - 0.030x4

Análisis of Varianza

DF Sum of Squares Mean SquareRegression 4 318.27442 79.56860Residual 4 2.96558 .74140

F = 107.32280 Signif F = .0003

Coeficiente de determinación: R2 = 99.08%

------------------ Variables in the Equation ------------------

Variable b ES(b) T Sig T

X4 -.030042 .166462 -.180 .8656X2 .726417 .785902 .924 .4076X3 3.075837 1.059179 2.904 .0439

Page 9: Analisis de Datos

X1 .100094 .339709 .295 .7829(Constant) 7.147532 16.459611 .434 .6865

De acuerdo a estos resultados, se tiene que la variable que explica mejor la variablidad existente entre las estaturas de los recién nacidos es el peso al nacer (X3).

Correlation:

Y X1 X2 X3 X4

Y 1.000 .947 .819 .761 .560X1 .947 1.000 .952 .534 .390X2 .819 .952 1.000 .263 .155X3 .761 .534 .263 1.000 .784X4 .560 .390 .155 .784 1.000

SELECCION DE LA MEJOR ECUACION UTILIZANDO EL METODO PASO A PASO

Con el método de selección paso a paso se encuentra un modelo de regresión lineal apropiado para pronósticar la talla de los recién nacidos según los datos dados anteriormente. Este método esta diseñado para ser eficiente desde el punto de vista computacional.Por consiguiente la ecuación de regresión estimada definitiva es:

^

y = 20.1084 + 0.413630x1 + 20.1084x3

y el coeficiente de determinación para este modelo es:R2 = 0.98822.

B. EJEMPLO DE UN ANÁLISIS DE REGRESIÓN LOGISTICA

- Ejemplo1

Suponemos que se desea estudiar el efecto de un conjunto de variables sobre la neoplasia cervical intraepitelial (NCI). Para ello se considera una muestra de pacientes con NCI (casos) y otra muestra de mujeres en que está ausente dicha enfermedad (controles). Denotemos por Y la variable dependiente "presencia y ausencia de la patología", así:

Yi = 1 si la i-ésima mujer observada tiene NCI eYi = 0 si la i-ésima mujer observada no tiene la enfermedad.

Page 10: Analisis de Datos

Además, sea p = P(Y=1) la probabilidad de tener la enfermedad y q = 1 - P(Y=1) la probabilidad de no tener la enfermedad en cuestión.A partir de las variables independientes X1 , X2 ,..., Xp ( que este ejemplo pueden ser :edad edad menarquia, número de abortos, paridad, uso de contraceptivo oral, etc.), la idea es generar una función de estas variables que permita estudiar la probabilidad que una paciente tenga la enfermedad basándose en su perfil observado para dichas variables. La ecuación de regresión para establecer esta relación se considera la regresión logística, que se da a continuación: 1 P(Y=1) = p = 1 + e-ßo - ß1X1 - ß2X2 - .... - ßpXp

Este, es un modelo de regresión no lineal que requiere de métodos relativamente complejos para estimar los parámetros ß0, ß1,...,ßp

Una vez obtenidas las estimaciones de los parámetros y disponiendo de los valores de X1 , ..., Xp para una paciente dada, se reemplazan estos valores en al expresión anterior obteniendose una estimación de la probabilidad que dicho paciente tiene NCI.Además de obtener esta probabilidad estimada, que ya es impor-tante como elemento predictivo, los coeficientes del modelo permiten evaluar el menor o mayor riesgo asociado a una persona para valores particulares de las variables independientes

- Ejemplo 2

El objetivo general de estudio es:

Determinar la asociación de los niveles de Hb. materna con resultados adversos del embarazo en mujeres peruanas que viven a baja, moderada y gran altitud y que atienden sus embarazos y partos en hospitales públicos y que están registrados en las bases de datos del Sistema Informático Perinatal.

Los resultados fetales adversos incluyen la muerte fetal tardía, pequeño para edad gestacional (PEG), bajo peso al nacer a término y partos pretérmino

Diseño de investigación

Investigación observacional de cohorte retrospectivo

Población de estudio:

La población procede de los partos consecutivos ocurridos en hospitales públicos de diferentes ciudades localizados a baja, moderada y gran altitud en el Perú. Enero del 2000 hasta el 2010.

Page 11: Analisis de Datos

Se estudian tanto a la madre como al niño de embarazos únicos con edad gestacional entre 20 y 44 semanas. En cada lugar de estudio se ha obtenido del Servicio correspondiente la base de datos del SIP-2000. Cada base es almacenada en un disco duro y luego son juntadas generándose una gran base de datos.Criterios de inclusión

• Mujeres gestantes entre 10 y 49 años. • Embarazos únicos • Edad gestacional de 20 - 44 semanas o peso al nacer > 400 g.• Con al menos una medición de hemoglobina materna.• Gestante viviendo en zona aledaña al hospital o centro de salud donde

se obtiene la base de datos.

Criterios de exclusión

• Gestaciones múltiples (Ej. Gemelos, trillizos, etc.).• Partos no hospitalarios. • Edad gestacional menor de 20sem. y peso igual o menor a 400 g.• Gestantes sin mediciones de hemoglobina.• Gestantes con diagnóstico de otros desórdenes hematológicos (Ej.

Talasemia, anemia falciforme, etc.)

Edición de datos

Parte de la edición de los datos se evaluó primero la calidad de los datos con la ayuda del análisis exploratorio de datos de las variables estudiadas para determinar la presencia de valores discordantes o aberrantes y el tipo de distribución que le corresponden a cada variable

Variable dependiente:• Un resultado adverso perinatal es definido si se observa al menos

uno de los siguientes resultados: muerte fetal tardía, parto pre término y pequeño para edad gestacional (incluye bajo peso al nacer a término).

La principal variable independiente es el valor de la hemoglobina materna.

Page 12: Analisis de Datos

A continuación se dan la definición de las covariables o bajo control que serán evaluadas de las bases de datos del Sistema Informático Perinatal obtenidos en diferentes hospitales de baja, moderada y gran altitud en el Perú. Variables Independenties Definición Escala de Medición Hemoglobina materna (g/ dl) 1er. valor de concentración de Hb

medido durante el embarazo. Ordinal: 1) < 7 g/ gl 2) 7 g/ dl to – 8.9 g/ dl 3) 9 g/ dl to - 10.9 g/ dl, 3) 11 g/ dl – 14.4 g/ dl, 4) 14.5 g/ dl – 15.5 g/ dl 5) > 15.5 gdl.

Trimestre de medición Hb: Trimestre de embarazo cuando se midió la 1ra hemoglobina

Ordinal: 1) 1er trim ( 1 – 14 sem) 2) 2do trim (15 – 28 sem) 3) 3er trim ( >28 sem)

Altitud de residencia (msnm) Altitud geografica donde se ubica el hospital

Ordinal 1) 0 – 1999 m 2) 2000 – 2999 m 3) ≥ 3000 m

Edad materna (años) Años en el momento del parto. Intervalo: 1) <20 años 2) 20 – 34 años 3) 35 - 49 años

Educación de la madre Nivel de educación máximo obtenido por la gestante

Ordinal: a) sin educación b) educación primaria c) educación secundaria d) estudios superiores.

Estado Civil Estado marital de la gestante. Nominal: 1) Con pareja 2) Sin pareja

En la siguiente tabla sigue la definición de las covariables que en el análisis estarán presentes para eliminar sus efectos respectivos.

Page 13: Analisis de Datos

Mortalidad obstétrica previa Muertes perinatales previas Nominal: 1) No 2) Si

Morbilidad obstétrica previa Complicaciones durante el embarazo previo: diabetes, ITU, cardiopatía

Nominal: 1) No 2) Si

Preeclampsia previa Preeclampsia en el embarazo anterior Nominal: 1) No 2) Si

Paridad Número de partos (vaginal o cesárea) Ordinall: 1) No 2) 1 – 3 3) > 3

Indice de Masa Corporal (IMCI) Cálculo del peso pre-embarazo/ talla2

(Kg/ m2) Ordinal: 1) < 19.9 2) 19.9 – 25 3) > 25

Visitas de control prenatal Número de atenciones de salud recibidas durante el embarazo.

Ordinal: 1) ninguna 2) 1 – 5 3) > 5

Edad gestacional a la primera visita prenatal

Edad gestacional en que ocurre la primera visita médica prenatal

Razón: 6, 7 …. 20……

Hábito de fumar Presente (alguna cantidad de cigarrillos) o ausente al primer control pre-natal

Nominal: 1) Si 0) No

Historia de bajo peso al nacer a término

Infantes nacidos con peso <2500 g Nominal: 1) Si 0) No

Genero del recién nacido

Sexo asignado al nacer Nominal: 1) Femenino 2) Masculino

Tipo de hospital Tipo de hospital donde ha ocurrido el parto

Ordinal: I Nivel; II Nivel; III Nivel

Atención del parto Persona que ha atendido el parto Nominal: a) Médicos b) otros

Análisis de datos

De acuerdo a lo expuesto hasta el momento para evaluar la relación de la presencia o ausencia de los factores adversos en los recién nacidos en función de la hemoglobina, altura y las variables concomitantes para controlar sus efectos respectivos, se utiliza la regresión logística múltiple y se determina un OR de la hemoglobina como factor asociado de la presencia del factor adverso en el recién nacido ajustado a los efectos de las variables concomitantes que han sido consideradas y se evaluará si es o no significativa.

Page 14: Analisis de Datos

C. Modelos Loglineales para Variables Categóricas.

Consideremos el siguiente ejemplo de una tabla de clasificación cruzada tridimensional:

Ejemplo

La tabla está basada sobre los datos presentados sobre el diagnóstico nutricional en niños de 12 meses de edad o más según sexo y subniveles socioeconómicos de la comunidad urbana marginal de Bayovar que está ubicada en canto Grande del distrito de san Juan de Lurigancho. Dicho estudio se realizó en el año de 1986. Lo que se trata es de evaluar la asociación que se podría existir entre las variables nivel socio-económico, sexo y el diagnóstico nutricional del niño. Las variables consideradas en la tabla son "nivel socio-económico", que tiene las categorías superior e inferior; "sexo", que tiene las categorías masculino y femenino; y "diagnóstico nutricional", que tienen las categorías normal y malnutrido.

Tabla 1Diagnóstico nutricional por nivel socioeconómico y sexo de niñosde 12 meses de edad o más.

NIVEL SOCIO- ECONOMICO SEXO

DIAGNOSTICO NUTRICIONAL PROPORCION DE MALNUTRIDOSMALNUTRIDO NORMAL

Bajo-superior MASCULINO

12 8 0.600

FEMENINO 10 7 0.588

Bajo-inferior MASCULINO

45 13 0.776

FEMENINO 45 35 0.562

Page 15: Analisis de Datos

Para determinar la asociación que podría existir entre las variables categóricas vamos a utilizar el modelo Log-lineal.

Jerarquización de algunos modelos que se podrían generar en tres variables.

En la tabla 2, consideramos una jerarquización de cinco modelos log-lineales, ordenados en términos de el grado de asociación y de la interacción de tres factores.

SIMBOLOS DEL MODELO INTERPRETACION

(A,B,C) Todos los pares son condicionalmente independientes

(AB, C) A y B es el único par asociado

(AB,BC) A y C es el único par condicionalmente independiente

(AB,BC,AC) Cada par está asociado, controlando la otra variable. No hay interacción de tres factores

( ABC ) Todos los pares están asociados.Hay interacción de tres factores

La tabla 3 contiene resultados que se obtienen como consecuencia de la aplicación del METHOD BACKWARD para el ajuste del modelo loglineal en el conjunto de datos sobre el diagnóstico nutricional en niños de 12 meses de edad 0 más que se dan en la tabla 1. Además dicha tabla contiene el estadístico chi-cuadrado G² y sus respectivos grados de libertad.

Tabla 3.Prueba de Bondad de Ajuste para relacionar los modelos loglinea-les Diagnóstico nutricional (P),Nivel socio-económico (D) y sexo (V).

MODELO G² g.l. p-valor

(VP , D) 3.96 3 0.266

(DV , VP) 2.26 2 0.323

(DP,VP,DV) 1.48 1 0.224

( DVP ) 0 0 -

Page 16: Analisis de Datos

La aplicación del método Backward da como resultado cuatro modelos log-lineales tal como se muestra en la tabla 3. Para seleccionar uno de ellos, se debe establecer las diferencias de los valores G² que corresponden a los modelos (VP,D) y (DP,VP,DV) respectivamente, es decir, 3.96-1.48=2.46 y para un Ji-cuadrado de 3-1=2 grados de libertad el valor de la diferencia resulta ser no significativo, por consiguiente, el modelo más apropiado es (VP,D), y nos indica que el diagnóstico nutricional y el sexo del niño están asociados controlando el efecto nivel-socioeconómico; además indica que el nivel socio-económico y el estado nutricional son independientes controlando la variable sexo.

Anexo I. TABLA DE ORIENTACION PARA LA ELABORACION DEL PLAN DE ANALISIS DE DATOS

VARIABLE DEPENDIENTE UNICA MULTIPLE

VARIABLE INDEPENDIENTE CUALITATIVA CUANTITATIVA CUALITATIVA CUANTITATIVA

UNICA

CUALITATIVA1 -Tablas de contigencia

-Prueba t-Análisis de varianza

Tablas de contigencia múltidimensional

Análisis discriminante

CUANTITATIVA2 -Regresión logística*

-Análisis discriminante-Correlación lineal-Regresión lineal simple

Regresión múltiple

MULTIPLE

CUALITATIVA Tablas de contingencia multidimensional

Análisis de varianza múltidimensional

Tablas de contigencia múltidimensional

ANOVA multivariado

CUANTITATIVA -Regresión logística*

-Análisis discriminante-Correlación parcial-Regresión múltiple

-Regresión múltiple multivariado-Análisis canónico

MIXTA -Regresión logistica*

-Análisis discriminanteAnálisis de covariana

-Regresión múltiple multivariado-Análisis canónico

(1) Las variables cualitativas pueden estar medidas con escala nominal u ordinal. (2) Las variables cuantitativas pueden estar medidas con escala de intervalos o de razón. (*) En este caso la variable dependiente cualitativa es dicotómica.