Análisis de datos cuantitativos

Análisis de los DatosCuantitativos

Analisis de datos cuantitativos

Programas

de computo

•SPSS•Minitab•SAS•STADTS

La matriz de datos

Estadistica

• Descriptiva• D

istribucion de frecuencias

• Medidas de tendencia central

• Medidas de variabilidad

• Graficas

• Puntuaciones z

• Inferencial• E

stimar parametros

• Probar hipotesis

• Distribucion muestral

pasos

• Reportar resultados

• Analisis estadísticos de variables he hipotesis

• Evaluar la confiabilidad y validez

• Explorar datos

• Ejecutarlo

• Seleccionar el programa

Paso 9Analizar los datos

Decidir el programa de análisis de datos que se utilizara Explorar los datos obtenidos en la recolección Analizar descriptivamente los datos por variable Visualizar los datos por variable Evaluar la confiabilidad, validez y objetividad de los

instrumentos de medición utilizados Analizar e interpretar mediante pruebas estadísticas las

hipótesis planteadas (análisis Estadístico Inferencial) Realizar análisis adicionales Preparar los resultados para presentarlos

¿Qué Procedimiento se sigue para analizar cuantitativamente los datos?

En la actualidad el análisis de datos se lleva a cabo por computadora.

Se centra en la interpretación de los resultados de los métodos de análisis cuantitativo y no en los procedimientos de calculo.

Fase 1Seleccionar un

programa estadístico en

computadora para analizar datos

Fase 7Preparar los

resultados para presentarlos

(tablas, graficas, cuadros, etcétera)

Fase 6Realizar análisis

adicionales

Fase 5Analizar mediante

pruebas estadísticas las

hipotesis planteadas (análisis

estadístico Inferencial)

Fase 2Ejecutar el programa:

SPSS, Minitab, Stats, SAS u otro

equivalente

Fase 4Evalúa la

confiabilidad y validez logradas por

el instrumento de medicion

Fase 3Explorar los datos:a)Analizar los datos

de la variableb) Visualizar los

datos por variable

Esquema del proceso de análisis

Paso 1: Seleccionar un programa de Análisis

Esto incluye dos partes o segmentos :

1. Definiciones de Variables, que a su vez explican los datos (Los elementos de la codificación ítem por ítem).

2. La Matriz de datos.

Una vez recolectados los datos, es definir los parámetros de la matriz de datos en el programa e introducir los datos en la matriz.

Caso Columna 1 (genero)

Columna 2 (color de pelo)

Columna 3 (edad)

1 1 1 35

2 1 1 29

3 2 1 28

4 2 4 33

•Genero( 1=masculino y 2 = femenino)

•Color de cabello( 1=negro, 2=castaño, 3=pelirrojo, 4=rubio)

•Edad( dato “bruto o crudo” en años)

Statistical Package for the Social Sciences (Paquete Estadistico para las Ciencias Sociales (SPSS)

El diagrama Q-Q Se utiliza para verificar que tanto la distribucion de nuestras variables es “normal”.

MinitabEs un paquete que goza de popularidad por su relativamente bajo costo. Incluye un considerable numero de pruebas estadisticas, y cuenta con un tutorial para aprender a utilizarlo y practicar; ademas, es muy sencillo de manejar.

Tipos de estadisticas:

•Basicas: descriptivas, correlacion, covarianza, chi-cuadrada•Regresion lineal y multiple•Analisis de varianza (ANOVA)•Diagramas de dispersion, pareto, causa-efecto…•Analisis multivariado; conglomerado, analisis de factores(validacion),•Analisis distante decorrespondencia

Paso 2: Ejecutar el Programa

En el caso de SPSS y Minitab, ambos paquetes son faciles de usar, pues lo unico que hay que hacer es solicitar los analisis requeridos seleccionando las opciones apropiadas. Obviamente antes de tales analisis, se debe verificar que el programa “corra” o funcione en nuestra computadora.

ejecutar

Paso 3: Explorar los Datos

1. Formulamos la pregunta de investigacion que pretendemos contestar.2. Visualizamos un alcance (exploratorio, descriptivo, correlacional y/o explicativo)3. Establecimos nuestras hipotesis (o estamos conscientes de que no las tenemos)4. Definimos las variables5. Elaboramos un instrumento (conocemos que items miden que variables y que nivel de medicion tiene cada variable)6. Recolectamos los datos.

Apunte 1Las variables de la matriz de datos son columnas o ítems. Las variables de investigación son las propiedades medidas y que forman parte de la hipótesis o que se pretende describir.

En ocasiones las variables de la investigación requieren un único ítem para ser medidas, pero en otras necesitan varios ítems.

Cuando solo se precisa de un ítem, las variables de la investigación ocupan una sola columna de la matriz(una variable de la matriz)

No confundir las variables de la matriz de datos con las variables del estudio, están vinculadas pero son distintas

Estadistica Descriptiva para cada Variable

La primera tarea es describir los datos, los valores o las puntuaciones obtenidas para cada variable.

Por ejemplo si aplicamos a 2112 niños el cuestionario sobre los uso y las gratificaciones que la televisión tiene para ellos.. Para describir estos datos se hace la distribución de las puntuaciones o frecuencias de cada variable.

Que es una distribución de frecuencias?

Conjunto de puntuaciones ordenadas en sus respectivas categorías.

Ejemplo en un estudio entre 200 personas latinas que viven en el estado de california, EE.UU. Se les pregunto: como prefiere que se refieran a usted en cuanto a su origen étnico?

Categoria Codigos (valores)

Frecuencias

Hispano 1 52

Latino 2 88

Latinoamericano 3 6

Americano 4 22

Otros 5 20

No respondieron 6 12

Total 200

Que otros elementos contiene una distribucion de frecuencias?

Las distribuciones de frecuencias pueden completarse agregando los porcentajes de casos en cada categoría.

El porcentaje acumulado constituye lo que aumenta en cada categoría de manera porcentual y progresiva (en orden descendente de aparición de las categorías), tomando en cuenta los porcentajes validos.

Las columnas porcentaje y porcentaje valido son iguales (mismas cifras o valores) cuando no hay valores perdidos; pero si tenemos valores perdidos, la columna porcentaje valido presenta los cálculos sobre el total menos tales valores.

De que otra manera pueden presentarse las distribuciones de frecuencias?

Las distribuciones de frecuencias, especialmente cuando utilizamos los porcentajes, pueden presentarse en forma de histogramas o graficas de otro tipo.

Las distribuciones de frecuencias tambien se pueden graficar como poligonos de frecuencias

Relacionan las puntuaciones con sus respectivas frecuencias, por medio de graficas utiles para describir los datos.

Ademas del poligono de frecuencias, deben calcularse las medidas de tendencia central y de variabilidad o dispersion.

Medidas de tendencia central

Son puntos en una distribución, los valores medios o centrales de esta, y nos ayudan a ubicarla dentro de la escala de medición.

Las principales medidas de tendencia central son

ModaMedianaMedia

Moda

Es la categoría o puntuación que ocurre con mayor frecuencia.

Categoria Codigos FrecuenciaPorcentaje

ValidoPorcentajeAcumulado

Si se ha obtenido cooperación

1 91 74.6 74.6

No se ha obtenido la cooperación

2 5 4.1 78.7

No respondieron 3 26 21.3 100.0

Total 122 100.0

Mediana

Es el valor que divide la distribución por la mitad. Esto es la mitad de los datos caen por debajo de la mediana y la otra mitad se ubica por encima de la mediana

Mediana =

24 31 35 35 38 43 45 50 57

52

19

2

1

n

Media

Es la medida de tendencia central más utilizada y puede definirse como el promedio aritmético de una distribución.

8 7 6 4 3 2 6 9 8

888.59

896234678

321

X

N

XXXXX K

Medidas de variabilidad

Indican la dispersion de los datos en la escala de medición y responden a la pregunta ¿Dónde están diseminados las puntuaciones o los valores diseminados?

Las más utilizadas son:

RangoDesviación estándarVarianza

Rango

También llamado recorrido, es la diferencia entre la puntuación mayor y la puntuación menor, e indica el número de unidades en la escala de medición que se necesitan para incluir los valores máximo y mínimo.

XM-Xm

El rango será 16

17 18 20 20 24 28 28 30 33

Desviación Estandar

Es el promedio de desviación de las puntuaciones con respecto a la media. Cuanto mayor sea la dispersión de los datos alrededor de la media mayor será la desviación

17 18 20 20 24 28 28 30 33

N

XXs

2)(

76.5

22.24

s

X

Varianza

Es la desviación estándar elevada al cuadrado (s2). Es un concepto estadístico muy importante principalmente en estadística inferencial, ya que en estadística descriptiva generalmente se utiliza la desviación estándar

Puntuaciones Z

Son transformaciones que se pueden hacer a los valores o las puntuaciones obtenidas, con el propósito de analizar su distancia respecto a la media, en unidades de desviación estándar. Una puntuación Z nos indica la dirección y el grado en que un valor individual obtenido se aleja de la media, en una escala de desviaciones estándar.

s

XXz

10

50

70

s

X

X2

10

5070

z

Razón

Es la relación que existe entre dos categorías.

La razón de hombres a mujeres es o sea que por

cada dos hombres hay una mujer

Categoria Frecuencia

Masculino 60

Femenino 30

230

60

Taza

Es la relación que existe entre el numero de casos, frecuencia o eventos de una categoría y el numero total de observaciones, multiplicado por un múltiplo de 10, generalmente 100.

La taza de aprobados fue de

Categoria Frecuencia

Aprobados 40

Reprobados 10

8010050

40

Confiabilidad

Medida de la estabilidadSe calcula aplicando a los participantes la misma prueba dos veces y luego obteniendo el coeficiente de correlación entre las puntuaciones de ambas aplicaciones.

Método de formas alternativas o paralelasQue se calcula a través de un coeficiente de correlación entre los resultados de dos pruebas supuestamente equivalentes.

Método de mitades partidasQue se calcula por medio de un coeficiente de correlación entre las puntuaciones de las mitades del instrumento.

Estadistica inferencial

Es la que utiliza para obtener los datos de la población, a partir de la información muestral.

EstadígrafoLos resultados de los datos que se han recolectado de una muestra.

ParámetrosSon las estadísticas de la población o universo.

La estadística inferencial se utiliza para dos procedimientos

• Probar hipótesis• Estimar parámetros

Prueba de hipótesis

Una hipótesis en el contexto de la estadística inferencial es una proporción respecto a uno o varios parámetros, y lo que el investigador hace por medio de la prueba de hipótesis es determinar si la hipótesis es congruente con los datos obtenidos en la muestra.Para comprender lo que es la prueba de hipotesis en la estadística inferencial es necesario revisar el concepto de:

• Distribución muestral• Nivel de significancia

Distribución muestral

Es un conjunto de valores sobre una estadística calculada de todas las muestras posibles de determinado tamaño de la población.

Muy rara vez se obtiene la distribución muestral es mas bien un concepto teórico definido por la estadística para los investigadores.

Nivel de significancia

Es un nivel de la probabilidad de equivocarse y se fija antes de probar hipótesis inferenciales. También es conocida como nivel alfa

En ciencias sociales existen dos niveles convenidos

• El nivel de significancia de 0.05

• El nivel de significancia de 0.01

Aceptación o rechazo de la hipótesis sobre la media poblacional

1. Sobre bases firmes (revisión de la literatura e información disponible) establecer una hipótesis sobre el parámetro poblacional.

2. Definir el nivel de significancia3. Recolectar los datos de una muestra significativa4. Estimar la desviación estándar de la distribución muestral

usando la formula

5. Transformar la media a nuestra puntuación Z6. En la tabla de áreas bajo la curva normal buscar aquella

puntuación Z que deje a 2.5 por encima de ella.7. Comparar el valor de nuestra transformada con el valor

obtenido de la tabla.

n

sXS

Aceptación o rechazo de la hipótesis sobre la media poblacional

1. El promedio de horas diarias que se exponen los niños de la ciudad de Valladolid a la televisión es de 3.0

2. Nivel de significancia 0.053. Muestra=312 niños, Media=2.9, Desviación Estándar=1.24. Estimar la desviación estándar de la distribución muestral

usando la formula

5. Transformar la media a nuestra puntuación Z

0679.0312

2.1XS

47.10679.0

0.39.2

z

Intervalo de confianza

Procedimiento de la estadística inferencial que construye un intervalo donde se localiza un determinado parámetro.

Intervalo de confianza = estadígrafo + Z S

La media poblacional esta entre 2.767 y 3.033 horas, con un 95% de probabilidades de no cometer error.

133.09.2

)0679.0)(96.1(9.2

Errores en la estadistica inferencial

Nunca estaremos completamente seguros de nuestra estimación. Trabajamos con altos niveles de seguridad, pero, aunque el riesgo es mínimo podría cometerse un error.

Los resultados posibles al probar hipótesis serían:

1. Aceptar una hipótesis verdadera (decisión correcta)2. Rechazar una hipótesis falsa (decisión correcta)3. Aceptar una hipótesis falsa (conocido como error Tipo II o

error beta)4. Rechazar una hipótesis verdadera (conocido como error Tipo

I o error alfa)

Prueba de hipótesis

Hay dos tipos de análisis estadísticos que pueden realizarse para probar hipótesis

1. Los análisis paramétricos2. Los análisis no paramétricos

Análisis paramétricos

Para realizar los análisis paramétricos debe partirse de los siguientes supuestos :

1. La distribución poblacional de la variable dependiente es normal.

2. El nivel de medición de la variable dependiente es por intervalos o razón.

3. Cuando dos o mas poblaciones son estudiadas, tienen una varianza homogénea.

Muchas gracias por su atención

Documents

Análisis de datos cuantitativos