47
1 Pablo Salgado EMAIL: [email protected] Variables Concepto y Clasificación según su nivel de medición 2 ¿Qué es una variable? Las variables representan un concepto de vital importancia dentro de un proyecto de investigación. Las variables se refieren a propiedades de la realidad que cambian, en contraposición a las propiedades constantes de ciertos fenómenos. Las variables, son los conceptos que forman enunciados de un tipo particular denominado hipótesis. Los conceptos pretenden describir y explicar la experiencia y comunicar el conocimiento obtenido. 3 ¿Qué es una variable? Los conceptos están situados en un plano teórico mientras que las variables están situadas en un plano concreto y perceptible por los sentidos. La relación entre ambas cosas es lo que se busca mediante el proceso de investigación científica, lo cual se logra por medio de las definiciones operacionales de los conceptos. 4 Las variables, son características de la realidad que puedan ser determinadas por observación y que puedan mostrar diferentes valores o categorías de una unidad de observación a otra, de un individuo a otro. A partir de característica o propiedad las unidades de análisis de una muestra o población, se pueden diferenciar o no entre si. Ejemplo: sexo, edad, nivel educativo alcanzado, peso, número de hijos, ingresos mensuales, estado civil, etc. 5 Dependencia entre variables Variables dependientes: son características de la realidad que se ven determinadas o que dependen de los valores que asuman otros fenómenos o variables independientes. Variables independientes: Los cambios en los valores de este tipo de variables determinan cambios en los valores de otras (variable dependiente). 6 En una investigación se denomina variable independiente a aquélla que es manipulada por el investigador en un experimento con el objeto de estudiar cómo incide sobre la expresión de la variable dependiente. Esto significa que las variaciones en la variable independiente repercutirán en variaciones en la variable dependiente. En algunas situaciones hay co-dependencia entre variables, por lo tanto no hay variables independientes (ejemplo asociación entre peso y altura).

00 Introduccion General Estadistica Impresionx6

Embed Size (px)

DESCRIPTION

estadistica

Citation preview

Page 1: 00 Introduccion General Estadistica Impresionx6

1

Pablo Salgado EMAIL: [email protected]

Variables

Concepto y Clasificación según su nivel de medición

2

¿Qué es una variable? Las variables representan un concepto de vital importancia

dentro de un proyecto de investigación.

Las variables se refieren a propiedades de la realidad que

cambian, en contraposición a las propiedades constantes de

ciertos fenómenos.

Las variables, son los conceptos que forman enunciados de

un tipo particular denominado hipótesis. Los conceptos

pretenden describir y explicar la experiencia y comunicar el

conocimiento obtenido.

3

¿Qué es una variable?

Los conceptos están situados en un plano teórico mientras que las variables están situadas en un plano concreto y perceptible por los sentidos.

La relación entre ambas cosas es lo que se busca mediante el proceso de investigación científica, lo cual se logra por medio de las definiciones operacionales de los conceptos.

4

Las variables, son características de la realidad que puedan ser determinadas por observación y que puedan mostrar diferentes valores o categorías de una unidad de observación a otra, de un individuo a otro.

A partir de característica o propiedad las unidades de análisis de una muestra o población, se pueden diferenciar o no entre si.

Ejemplo: sexo, edad, nivel educativo alcanzado, peso, número de hijos, ingresos mensuales, estado civil, etc.

5

Dependencia entre variablesVariables dependientes: son características de

la realidad que se ven determinadas o que

dependen de los valores que asuman otros

fenómenos o variables independientes.

Variables independientes: Los cambios en los

valores de este tipo de variables determinan

cambios en los valores de otras (variable

dependiente).

6

En una investigación se denomina variable independiente a aquélla que es manipulada por el investigador en un experimento con el objeto de estudiar cómo incide sobre la expresión de la variable dependiente.Esto significa que las variaciones en la variable

independiente repercutirán en variaciones en la variable dependiente.En algunas situaciones hay co-dependencia

entre variables, por lo tanto no hay variables independientes (ejemplo asociación entre peso y altura).

Page 2: 00 Introduccion General Estadistica Impresionx6

2

7

Por ejemplo, si un investigador desea conocer la efectividad de un nuevo tratamiento para prevenir una enfermedad, para ello se seleccionarán dos grupos independientes. A uno se le aplicará un tratamiento (casos) y otro al que no se le aplicará nada en absoluto (controles).

Para que el experimento tenga validez ambos grupos deben estar sometidos a las mismas condiciones para evitar que no aparezcan influencias de otras variables intervinientes (no controladas).

En este caso la variable independiente corresponde a la aplicación o no del tratamiento y la dependiente a la aparición o no de la enfermedad.

Pablo Salgado EMAIL: [email protected]

Clasificación de las variables:

Escalas de medición

9

La escala de medida de una característica o variable,

tiene consecuencias en la forma de presentación de la

información y resumen estadístico.

La escala de medición, el grado de exactitud y

precisión en la medición de las variables, también

determina los métodos estadísticos que se usan para

analizar los datos.

Por tanto, es importante definir las características que

se van a medir y que escala de medición va a utilizar,

antes de comenzar cualquier trabajo estadístico.

10

Variables cualitativas: Son las variables que expresan distintas cualidades,

características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos.

Los niveles de medición de las variables cualitativas pueden ser nominales y ordinales.

Las variables cualitativas pueden ser dicotómicascuando sólo pueden tomar dos categorías o atributos posibles como sí y no, hombre y mujer o son politómicas cuando pueden adquirir tres o más categorías.

11

Variables CualitativasSe denomina a cualquier variable no susceptible de ser

cuantificada. Siendo un atributo, cualidad o factor.Ejemplos:

o Estado Civil.o Sexo.o Profesión.o Calidad de un producto.o Evaluación en el nivel primario.

Se clasifican en:

Variables Cualitativas Nominales

Variables Cualitativas Ordinales

Pablo Salgado EMAIL: [email protected]

Variables con escala de medición nominal

12

Page 3: 00 Introduccion General Estadistica Impresionx6

3

Podemos decir que es el nivel de medición más rudimentario.

Consiste en aplicar números o símbolos para clasificar a los objetos, personas y características

Las propiedades formales de la Escala Nominal, es decir, las condiciones que requiere, son que los miembros observaciones o elementos de una clase o categoría deben se equivalentes, idénticos respecto a la propiedad que tenemos en cuenta.

13 14

Son aquellas variables en el que los gruposse definen o diferencian por la presencia deun atributo o característica.

En este nivel de medición los valores nopueden ser sometidos a un criteriojerárquico. Estas variables no tienen ningúnorden inherente entre los atributos ni unorden de jerarquía.

15

La forma más sencilla de determinar si las observaciones

se miden con una escala nominal es peguntar si se

clasifican o se colocan en categorías equivalentes.

Con este tipo de escalas se pueden hacer algunas

operaciones estadísticas; por ejemplo contar cuantos

elementos hay en cada uno de los grupos formados y asi

tenemos las frecuencias absolutas por categoría o

atributo.

16

Como estadístico descriptivo se pueden calcular

frecuencias o porcentaje para cada atributo y ver

cuál es el grupo que tiene mayor frecuencia

alcanzando el concepto de “Moda”.

También obtener algunas medidas de

asociación/independencia cuando se relacionan

variables entre sí (tabla de contingencia).

Los gráficos más comunes para representar este

nivel de medición son los de sectores o barras.

17

Ejemplos de variables con escala nominal:

Clasificación por sexo: En donde las categorías posibles

son Femenino y Masculino (dicotómica).

Presencia o ausencia de una enfermedad (dicotómica).

Especialidades médicas en Consultorios Externos de un

hospital: Clínica Médica, Cardiología, etc. (politómica).

Razas de Ganado Bovino: Hereford, Shorton,

Aberdeen Angus , Charolaise (politómica).

Pablo Salgado EMAIL: [email protected]

Variables con escala de medición ordinal

18

Page 4: 00 Introduccion General Estadistica Impresionx6

4

19

Si hay un orden inherente entre las categorías,

se dice que las observaciones se miden en una

escala ordinal.

Estas observaciones aun se clasifican como en

las escalas nominales, pero algunas tienen

“más” o son “más grandes que” otras.

20

Son aquellas en que los grupos se establecen deacuerdo a la intensidad con que se presente un atributodeterminado. Si las categorías, atributos o valores queadopte una variable cualitativa poseen un orden,secuencia o progresión natural esperable, hablaremosde variable ordinal.

Puede establecerse orden, pero no medirse distanciadentro de ese orden. La medida estadística de tendenciacentral más apropiada para estas escalas es la"mediana“ y también las medidas de posición como loscuartiles, quintiles, deciles o percentiles.

21

Ejemplo: Los tumores, se clasifican en estadios o etapas

según su grado de desarrollo:

La clasificación internacional para valorar la etapa de un

carcinoma de cuello uterino es una escala ordinal de 0 a IV.

Donde la etapa 0 representa carcinoma in situ y la etapa IV

carcinoma que se extiende mas allá de la pelvis o que afecta

a la mucosa de vejiga y recto.

Desde luego, por orden inherente en esta escala ordinal, la

etapa IV tiene peor pronóstico que la 0.

22

EJEMPLOS DE ESCALAS ORDINALES

Grado de un Carcinoma.

Nivel de ejercitación desarrollado por semana: Alto,

medio, bajo, nulo.

Estudios cursados: Analfabetos, primarios,

secundarios, terciarios, universitarios.

Escala de Apgar del recién nacido.

Escalas de dolor.

Escalas del Coma de Glasgow.

Escalas Likert.

23

Una característica importante de las escalas ordinales es

que aunque existe un orden entre categorías la diferencia

entre dos grupos adyacentes no es la misma en la escala.

Para ilustrarlo, considérense las calificaciones APGAR, que

describen la madurez de niños recién nacidos en una

escala de 0 a 10, los valores menores indican depresión de

funciones cardiorrespiratorias y neurológicas. Sin embargo,

es probable que la diferencia entre una calificación de 8 y

una de 10 no sea de la misma magnitud que entre 4 y 6.

24

PUNTUACION DE APGAR

LOS VALORES DE CADA UNA DE LAS CINCO CATEGORÍAS SE SUMAN PARA GENERAR UN RESULTADO QUE VA DE 0 A 10.

SIGNO PUNTUACION

0 1 2Frecuencia cardíaca Ausente < 100 > 100

Respiración Ausente Lenta, irregular Regular, lloroso

Tono Muscular Relajado Flexión lenta Motor activo

Color Azuloso, pálido Cuerpo rosáceo, extremidades azulosa

Rosáceo en su totalidad

Respuesta refleja al catéter en fosa nasal

Ninguna Muecas Tos, estornudo

Page 5: 00 Introduccion General Estadistica Impresionx6

5

25

Este tipo de escalas ordinales que se construyen sumando la codificación de varias variables ordinales y obteniendo un puntaje final o total, en muchas ocasiones se pueden tratar como si fueran variables cuantitativas (continuas o discretas, según el caso).

Podemos denominarlas escalas de puntaje o scores para diferenciarlas de las variables cuantitativas.

Ejemplos de este tipo de variables complejas:

Escala de depresión de Beck, Minimental, Indice Clínico de Demencia, Coeficiente Intelectual, Escalas que miden la Atención, memoria, Escalas que miden la condición de un paciente (Coma de Glasgow, Apache II) y muchos otros.

26

Las categorías de las escalas nominales y

ordinales deben poder establecerse en forma

objetiva.

No se puede utilizan criterios arbitrarios o que

puedan llevar a confusión. Estos criterios, deben

ser claramente estipulados, de tal forma que

cualquier persona pueda repetir la clasificación.

IMPORTANTE:

Pablo Salgado EMAIL: [email protected]

Variables con escala de medición cuantitativa o

numérica

27 28

Son las variables que se expresan mediante cantidades numéricas.

Las variables cuantitativas se clasifican en:

Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. (Números enteros)

Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores, siempre existe un valor entre dos cualesquiera.

29

Todas las escalas numéricas pueden transformarse (agruparse) en escalas nominales y ordinales. Lo inverso no se puede realizar.

Si le asignamos un valor numérico a las categorías de una escala ordinal o nominal, estos no deben ser tratados como datos numéricos sino como un código para identificar al atributo o categoría.

EJEMPLOS DE ESCALAS NUMERICAS Peso. Estatura. Edad. Perímetro cefálico.

Número de hijos. Cantidad de habitaciones. Número de Partos. Cantidad de alumnos.

30

Variables Cuantitativas

Como se describió anteriormente, se denominaa cualquier variable susceptible de ser medidaen términos numéricos.

Ejemplos:

• Tensión arterial.

• Peso.

• Edad.

• Temperatura.

• Número de hijos.

Page 6: 00 Introduccion General Estadistica Impresionx6

6

31

La propiedad mas importante que presentan, por encima

de las escalas cualitativas, es que las distancias

numéricas iguales representan distancias iguales

empíricas.

Así podemos decir que a dos objetos a los que se ha

asignado en este tipo de escalas los números 5 y 10 están

igualmente separados que otros dos a los que se ha

asignado los números 10 y 15. Que algo que mida 4 es el

doble de otro que mide 2.

32

ESCALAS CUANTITATIVAS

Cuando una escala tiene todas las características de una escala ordinal y se conoce la distancia entre dos números cualesquiera.

Discretas

De intervalos

Continuas

De cocientes o razones

33

Cuando una observación solamente puede

medirse en valores enteros, la escala de

medición es discontinua o discreta.

La forma de medir en general es contando

unidades como por ejemplo hijos, embarazos,

cantidad de personas que se necesitan para una

tarea.

ESCALAS DISCRETAS34

Variables Cuantitativas Discretas:

Ejemplos:

Número de pacientes.

Número de habitaciones.

Número de personas que viven en un hogar.

Cantidad de médicos por paciente.

Número de camas de una sala de internación.

Frecuencia cardíaca.

Nº de células

35

Escalas cuantitativas contínuasUna escala de medida esta caracterizada por

una medida común y constante que asigna un número real a todos los pares de objetos en un conjunto ordenado.

Ejemplo de variables continuas:

Edad, peso, metros cuadrados de una jaula,

concentración de hemoglobina.

36

Una de las distinciones que se pueden hacer es entrelas variables cuantitativas que usan una escala denúmeros donde cero significa que la característica noexiste, y las variables cuantitativas que no atribuyen esesignificado a un punto cero.

Muchas de las variables cuantitativas (por ejemploingresos mensuales) poseen ese punto cero, de talmanera que quien gana $0 no gana nada, carececompletamente del atributo que estamos analizando. Deigual forma quien gana $1000 al día gana el doble quequien gana $500 al día (Escalas cuantitativas continuasde cociente o razón).

Page 7: 00 Introduccion General Estadistica Impresionx6

7

37

Otras variables cuantitativas no poseen en punto cero,tal es el caso de la temperatura: un objeto contemperatura cero no carece completamente de calor;en consecuencia un objeto cuya temperatura es 10º noes el doble de caliente que uno con temperatura 5ºsino simplemente 5º más caliente. (Escalascuantitativas continuas intervalares).

Muchas de las variables cuantitativas inventadas porlas Ciencias Psicológicas y Sociales pertenecen a estetipo.

38

Variables Cuantitativas Contínuas:

Son aquellas variables que pueden tomar infinitos

valores dentro de un intervalo.

Ejemplos:

Ingresos anuales por personal

Temperatura corporal.

Peso en gramos de un recién nacido.

Concentración de Glucosa en sangre.

39

Tipos de variables

Tipos de variables

Cuantitativas

Discretas

Continuas

Intervalares

Cociente o razón

Puntajes o Scores

Dicotómica

Politómica

Ordinales

Nominales

Cualitativas

40

Nivel de mediciónde las variables

Intervalares

Cociente o razón

Ordinales

Nominales

Discretas

Pablo Salgado EMAIL: [email protected]

CÓMO ORDENAR LOS DATOS?

Pablo Salgado EMAIL: [email protected]

Te paso la base de datos

Estaré queriendo decir:

Archivo de datos

Page 8: 00 Introduccion General Estadistica Impresionx6

8

43

Para que los datos sean útiles, es necesario organizar

las observaciones de modo tal que se pueda reconocer

y distinguir el comportamiento de las características

observadas y sus relaciones.

Lo importante es que del tipo de observaciones

realizadas y el nivel de medición alcanzado (cómo se

midieron), determinarán las clases de cuadros, gráficas

y tablas de resumen que exhiben y comunican mejor las

observaciones.

También definirá los métodos estadísticos a utilizar.

44

Durante la recolección de los datos los especialistas en

estadística seleccionan sus observaciones de manera que todos

los grupos relevantes estén representados en la muestra.

Para determinar la opinión sobre política, por ejemplo, los

especialistas podrían estudiar a un grupo de personas que

tengan diferentes nivel de ingresos, nivel educativo, barrio,

grupo de edades, en las mismas proporciones que en la

población estudiada y siempre y cuando estas variables tengan

(o se supone que tienen) alguna relación sobre la opinión

política.

45

Los datos puede provenir de observaciones hechas por el

investigador o de registros elaborados con otros propósitos. Por

ejemplo, con fines de facturación y de informes médicos, un

hospital registra el número de pacientes que utilizan el tomógrafo

computado. Esta información cruzada con otras variables relevadas

(patologías, edad, sexo, etc.), puede organizarse para producir

resultados que los especialistas pueden describir o interpretar.

Cuando los datos se ordenan de manera compacta y útil, el

procesamiento de los datos y los resultados obtenidos hace que los

responsables de la toma de decisiones pueden obtener información

rápida y confiable.

46

RECOLECCION DE DATOS

Recolección propia: Fuente de información primaria

Censo vs. Muestreo.

Si es una muestra de la población debe representar a todos

los grupos. Inferencia estadística.

Fuentes de terceros: Fuente de información secundaria

Los datos pueden provenir de diferentes fuentes de

información.

Validez y confiabilidad de las fuentes de información?.

47

Fuentes de informaciónFuentes de información primaria:

Aquella fuente que es creada para producir/recolectar información

especifica para monitorear o evaluar un indicador.

Información original, que se difunde por primera vez.

Fuentes de información Secundaria:

Es aquella que es realizada por terceros.

Produce información útil para medir alguno de nuestros indicadores.

No tenemos ingerencia en la metodología ni otros procesos del estudio.

Reduce los costos.

Involucra a sectores no tradicionales en la producción de información.

48

Pruebas para saber si los datos son confiables:

1. De dónde provienen los datos? La fuente es tendenciosa? Es

posible que exista interés para proporcionar datos que

conduzcan a ciertas conclusiones buscadas?

2. Los datos apoyan o contradicen otras evidencias que se tienen?

3. Cuantas observaciones se tienen? Representan a todos los

grupos que se desea estudiar?

4. La conclusión es lógica según nuestra experiencia? Se ha

llegado a conclusiones que los datos no confirman?

Page 9: 00 Introduccion General Estadistica Impresionx6

9

Pablo Salgado EMAIL: [email protected]

Organización de los

Datos relevados

Pablo Salgado EMAIL: [email protected]

COMO ARMAR UNARCHIVO DE DATOS

PARA SER USO DE PROGRAMAS QUE TIENE COMO FUNCIÓN

EL ANALISIS Y EL PROCESAMIENTO ESTADÍSTICO

51

El primer paso luego de medir y relevar las

variables seleccionadas es organizar la

carga de datos en un soporte informático,

para su posterior procesamiento y

análisis.

Esto se puede hacer en una planilla de

Cálculo como el Excel o en programas para

el ingreso de datos (Data entry).

52

Generalmente los datos recogidos de

un relevamiento estadístico se organiza

en forma de una “Matriz de Datos”.

Una matriz es un arreglo bidimensional

en forma de filas y columnas.En las columnas se colocan las variables relevadas.

En las filas se colocan a cada unidad de observación, unidad de análisis o caso.

53

identificador Var1 Var2 Var3 Var4 Var5 Var6

1

2

3

4

5

6

Variables

Un

idad

es d

e an

ális

is

54

Como se observa en la primera fila se escriben los nombres de las variables

En las subsiguientes filas se cargan los valores o códigos de cada caso o Unidad de análisis y para cada variable a lo largo de la fila.

No se tienen que unir celdas.

Tampoco dejar filas o columnas vacías.

Page 10: 00 Introduccion General Estadistica Impresionx6

10

Si es en el programa Excel:No se deben dejar cálculos hechos a los costados

o al final de la matriz de datos ni tampoco gráficos.

Si los hacemos tendrán que ubicarse en otra hoja.

No se tienen que unir celdas.

Tampoco dejar filas o columnas vacías.

Si no tenemos en cuenta estos detalles al abrir/exportar en un programa para análisis estadístico, lo hará con errores o no lo abrirá.

55

Pablo Salgado EMAIL: [email protected]

Variables cualitativas

con respuestas Múltiples

Archivo: “preguntas múltiples.xls”

57

Este tipo de variables no respeta el criterio de “mutuamente excluyente” como propiedades de una variable.

Por lo tanto para cada opción o categoría se tomará como una variable, teniendo tantas variables dicotómicas como opciones tenga la variable con respuestas múltiple. Ej:

Cada categoría u opción se convertirá en una columna en la base de datos indicando: “Si” (1) o “No”(0)

58

Respuestas múltiplesID Intr_Inadec Set_insuf Asist_insuf Imponer_impl No_indicado Provis_tard

1 0 0 1 0 1 0

2 1 0 0 0 0 1

3 1 1 0 1 0 1

4 0 0 1 1 1 0

5 0 1 1 0 1 0

6 1 1 1 1 1 1

7 1 1 1 0 1 1

8 1 1 1 0 1 1

9 1 1 0 1 0 1

… … … … … … …

59

Variables con Respuestas MúltiplesSon variables o “reactivos” de un cuestionario o encuesta (preguntas), en el

cual una unidad de análisis (encuestado) puede seleccionar más de una de

las categorías que toma la variable.

Ej: medicación antiepiléptica que toma un paciente.

Ej: tipo de literatura que le gusta leer.

Ej: tipo de géneros músicales que escucha.

Para poder informatizar en una base datos se transforma a cada categoría en

una variable. Dependiendo de cual sea la pregunta o reactivo la

categoría/variable puede ser nominal dicotómica (presencia o ausencia),

nominal politómica u ordinal.

60

Este tipo de variables no respeta el criterio de “mutuamente excluyente” que vimos con anterioridad como propiedades de una variable.

Por lo tanto para cada opción o categoría se tomará como una variable, teniendo tantas variables como opciones tenga la variable con respuestas múltiple.

Ej: ¿Qué tipo de texto le gusta leer?:

Enciclopedia:___ Manual:___ Policial:___ Aventura:___

Ciencia ficción:___ Terror:___ Novela:___ Poesía:___ Deporte:___

Cada categoría u opción se convertirá en una columna en la base de datos indicando si “lee” (1) o “no lee”(0).

Page 11: 00 Introduccion General Estadistica Impresionx6

11

Pablo Salgado EMAIL: [email protected]

RECOLECCIÓN DE

DATOS PROCESAMIENTO

SITEMATIZACIÓN Y

ANÁLISIS

DECALOGO DEL PLAN DE INVESTIGACIÓN1 • Identificar el problema

2 • Buscar bibliografía

3 • Redactar objetivos

4 • Elegir a quienes estudiar

5 • Elegir qué datos recolectar

6• Definir pasos (Diseño)

7 • Planificar el registro de datos

8 • Planificar el análisis de datos

9 • Evaluar la viabilidad ética y material del proyecto

10 • Decidir donde se va a publicar o presentar el informe

Una vez recolectados los datos…

¿Cómo llego desde este punto a lograr ….

cumplir los objetivos?

contrastar la hipótesis?

responder a la pregunta de investigación?

¿Qué hay que diseñar?

1. Procesamiento

2. Sistematización

3. Análisis

4. Presentación

Varían según el nivel de

medición de las variables y

Varia según diseño de

investigación

1. Procesamiento Tareas “mecánicas o automatizada” necesarias

para volver útil la información para el análisis.

Datos: Numeración de planillas (identificación de Unidad de Análisis) Codificación: Ej. 1=Si, 2=No. Traducción: Ej. Fecha de nacimiento -> Edad Tabulación: Ej. Escala visual de Dolor, Cuestionario de Dash,

Ejemplo:

Traducción y codificación:

junior=1, Adherente=2, Certificado=3, Rectificado=4, vitalicio=5

CategoríaSocietaria:

Junior Adherente Certificado Recertificado Titular Vitalicio

Organización y volcado de la información en un ARCHIVO DE DATOS DIGITALPuede ser: Informática, manual o mixta.

Con asistencia de programas inespecíficos o específicos:

Excel, EpiInfo, Epidata, Access etc.

Datos cuantitativos

Armado de bases de datos: UA, V

Volcado de datos en la base

Asignación de etiquetas para valores perdido y/o que no corresponden.

Reagrupar/recodificar de valores en nuevas escalas: Cuantitativo Ordinal o Nominal

Edad Sexo TrabajaResidenci

a Educación …….

1 25 2 2 1 1 1

2 22 2 2 3 3 1

3 31 2 1 2 4 2

4 37 1 1 2 2 1

U.A.

Variable Valor

2. Sistematización

Lugar de resid 1=Cap Fed, 2=GBA, 3=Interior PBAModalidad: 1= Lic / 2 = CCCTrabaja: 1=SI, 2=NO.Máximo nivel de estudios alcanzados: 1=sin estudios, 2=primario, 3=secundario, 4= Terc./Univ.

Códigos:

Page 12: 00 Introduccion General Estadistica Impresionx6

12

Elección del tipo de análisis estadístico

Permite resumir la información y comparar los datos con herramientas estadísticas.

Estadística descriptiva

Estadística inferencial: Univariado, bivariado y multivariado

3. Análisis Análisis de datos: Descriptivo

Variables cualitativas: frecuencias, %, moda, cuartiles. Gráficos circular, Gráficos de barras

Variables cuantitativas: media, mediana, moda, cuantiles, varianza/desvío estándar. Gráficos histograma, diagramas de caya, barra de errores

Analítico Comparación de medias (test de student, Análisis de la Varianza)

Comparación de proporciones

Riesgo Relativo y Odds Ratio

Curvas de supervivencia

Significación estadística es suficiente? Significación técnica/clínica

68

Tablas de distribución de frecuencia

Descriptivos de tendencia central y dispersión Gráficos

4. Presentación de resultados

Distrib. por sexo de los estudiantes de enfermería

Frecuencia Porcentaje

Varón 40 21,4

Mujer 147 78,6

Total 187 100,0

EDAD Estadístico

Media 28,9

Mediana 25,0

Varianza 97,3

Desv. estándar

9,9

Mínimo 17

Máximo 63

Rango 46 ENCUESTA (n=504 encuestados)

Criterios en los cuales fundamenta la elección de un implante

4. Presentación de resultados

Gráfico bivariado:Sin control prenatal por Regiónes del País

Brecha 3,7Rango: 7,6%

2,8%

3,7%

4,2%

5,3%

5,4%

6,7%

7,2%

7,3%

10,4%

0% 2% 4% 6% 8% 10% 12%

Patagonia

PBA Interior

Centro

CABA

Cuyo

TOTAL PAIS

NEA

Conurbano

NOA

4. Presentación de resultados Índice de Masa Corporal

Estimación de riesgo para sobrepeso y obesidad

Odds Ratio ValorIntervalo de confianza 95%

Inferior Superior

Sexo (Masculino / Femenino) 2,5 1,8 3,3

En esta muestra, los hombres tiene 2,5 veces mas chances

de sufrir sobrepeso u obesidad que las mujeres,

Page 13: 00 Introduccion General Estadistica Impresionx6

13

Madres adolescentes y NO uso de MAC

Madre adolescente

Tasa de No uso de MAC

No Uso Uso

Si 60,3% 39,7%

No 49,3% 50,7%

Odds Ratio ValorIC 95%

Inferior Superior

Madre adolescente(No Uso / Uso)

1,71 1,58 1,85

60,3%

39,7%

49,3% 50,7%

0%

10%

20%

30%

40%

50%

60%

70%

No uso Uso

Tasa de no uso de MAC

Adolescente No Adolescente

74

Edad del paciente

Sexo Media MedianaDesv.

estándar

N Mínimo Máximo

Masculino 58,0 56,0 13,4 57 25 87

Femenino 63,0 62,5 14,6 72 23 92

Total 61,0 59,0 14,2 129 23 92

REGISTRO DE IMPLANTES:

Remplazo total de cadera

Edad de los pacientes por sexo

N=197

Pablo Salgado EMAIL: [email protected]

ESTADISTICA

DESCRIPTIVA

76

La estadística descriptiva es una gran parte de la estadística que propone resumir, analizar y representar los datos.

Generalmente este análisis es muy básico y sirve para caracterizar y resumir a las variable obtenidas.

Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central (Promedio, mediana y moda), para ver en qué medida los datos se agrupan o dispersan en torno a un valor central.

77

En la mayor parte de los casos, del conjunto de datos que se obtienen en un estudio estadístico, no se desprende ninguna información útil de manera inmediata y evidente.

Los datos obtenidos tiene que ser organizados de tal manera que la información que contienen se resuma para mostrar patrones de variación.

Por otro lado solamente cuando se conocen las características de los datos se pueden decidir los métodos de análisis estadístico a realizar.

78

En esta clase se verá cómo clasificar y resumir los

diferentes tipos de variables obtenidos en un trabajo

estadístico y mostrar cómo se organizan y exhiben

estos resultados.

Cualquiera que sea el estudio estadístico que se

realice, los primeros pasos del procesamiento de

datos es, en general, transformarlos en cuadros,

gráficas o resúmenes de cifras, como porcentajes,

índices o parámetros que representan a una variable.

Page 14: 00 Introduccion General Estadistica Impresionx6

14

Pablo Salgado EMAIL: [email protected]

Exploración y

Presentación de Datos

Pablo Salgado EMAIL: [email protected]

Como resumir los datos estadísticos

Análisis Exploratorio

81

TABLAS DE FRECUENCIAS.

Asigna a cada categoría el número de elementos que pertenecen a

ella.

Permite visualizar la distribución de frecuencias de la variable.

GRAFICOS.

Es la representación gráfica de los resúmenes de datos presentados

en tablas.

PARAMETROS / ESTADISTICOS.

Medidas que representan o caracterizan a la variable, siendo de

tendencia central, posición, dispersión, forma o construidos (índices,

tasas o variables complejas).

Pablo Salgado EMAIL: [email protected]

Ejemplo

83

TABLAS

Años Frecuencia Porcentaje % acum.

0 2 0,1 0,1

3 5 0,3 0,5

4 5 0,3 0,8

5 6 0,4 1,2

6 12 0,8 2,0

7 25 1,7 3,6

8 68 4,5 8,1

9 56 3,7 11,9

10 73 4,8 16,7

11 85 5,6 22,3

12 461 30,5 52,8

13 130 8,6 61,5

14 175 11,6 73,0

15 73 4,8 77,9

16 194 12,8 90,7

17 43 2,8 93,6

18 45 3,0 96,6

19 22 1,5 98,0

20 30 2,0 100,0

Total 1510 100,0

Estadígrafos Años

Media 12,88

Mediana 12,00

Moda 12

Percentiles

10 9,00

20 11,00

25 12,00

30 12,00

40 12,00

50 12,00

60 13,00

70 14,00

75 15,00

80 16,00

90 16,00

ParámetrosEstadísticos

Tablas

Gráficos

Formas de resumir los

datos

84

TABLAS

Años Frecuencia Porcentaje % acum

0 2 0,1 0,1

3 5 0,3 0,5

4 5 0,3 0,8

5 6 0,4 1,2

6 12 0,8 2,0

7 25 1,7 3,6

8 68 4,5 8,1

9 56 3,7 11,9

10 73 4,8 16,7

11 85 5,6 22,3

12 461 30,5 52,8

13 130 8,6 61,5

14 175 11,6 73,0

15 73 4,8 77,9

16 194 12,8 90,7

17 43 2,8 93,6

18 45 3,0 96,6

19 22 1,5 98,0

20 30 2,0 100,0

Total 1510 100,0

Estadígrafos Años

Media 12,88

Mediana 12,00

Moda 12

Percentiles

10 9,00

20 11,00

25 12,00

30 12,00

40 12,00

50 12,00

60 13,00

70 14,00

75 15,00

80 16,00

90 16,00

ParámetrosEstadísticos

Tablas

Gráficos

Mediana

Page 15: 00 Introduccion General Estadistica Impresionx6

15

85

TABLAS

Años Frecuencia Porcentaje % acum

0 2 0,1 0,1

3 5 0,3 0,5

4 5 0,3 0,8

5 6 0,4 1,2

6 12 0,8 2,0

7 25 1,7 3,6

8 68 4,5 8,1

9 56 3,7 11,9

10 73 4,8 16,7

11 85 5,6 22,3

12 461 30,5 52,8

13 130 8,6 61,5

14 175 11,6 73,0

15 73 4,8 77,9

16 194 12,8 90,7

17 43 2,8 93,6

18 45 3,0 96,6

19 22 1,5 98,0

20 30 2,0 100,0

Total 1510 100,0

Estadígrafos Años

Media 12,88

Mediana 12,00

Moda 12

Percentiles

10 9,00

20 11,00

25 12,00

30 12,00

40 12,00

50 12,00

60 13,00

70 14,00

75 15,00

80 16,00

90 16,00

ParámetrosEstadísticos

Tablas

Gráficos

Percentil 75

86

TABLAS

Años Frecuencia Porcentaje % acum

0 2 0,1 0,1

3 5 0,3 0,5

4 5 0,3 0,8

5 6 0,4 1,2

6 12 0,8 2,0

7 25 1,7 3,6

8 68 4,5 8,1

9 56 3,7 11,9

10 73 4,8 16,7

11 85 5,6 22,3

12 461 30,5 52,8

13 130 8,6 61,5

14 175 11,6 73,0

15 73 4,8 77,9

16 194 12,8 90,7

17 43 2,8 93,6

18 45 3,0 96,6

19 22 1,5 98,0

20 30 2,0 100,0

Total 1510 100,0

Estadígrafos Años

Media 12,88

Mediana 12,00

Moda 12

Percentiles

10 9,00

20 11,00

25 12,00

30 12,00

40 12,00

50 12,00

60 13,00

70 14,00

75 15,00

80 16,00

90 16,00

ParámetrosEstadísticos

Tablas

Gráficos

Percentil 20

87

Cuando se trabaja con un conjunto grande de datos, laforma de organizarlos y resumirlos es construyendoTablas de Frecuencias de las variables de interes.

Esto nos permitirá observar como se distribuyen losdatos a lo largo del recorrido de la variable.

Podremos observar donde están más concentrados, sihay datos extremos, si hay simetría en la distribuciónetc.

Distribución de Frecuencias

88

TIPOS DE FRECUENCIAS Frecuencias Absolutas Frecuencias Relativas Frecuencias Porcentuales Frecuencias Absolutas Acumuladas Frecuencias Relativas Acumuladas Frecuencias Porcentuales Acumuladas

Además dependiendo de cuál sea el nivel de medición de las

variables, el número de datos que se obtuvieron y el número de

variables involucradas en el resumen, se construirá diferentes

tipos de tabla de frecuencia.

89

Distribución de frecuencias es como se denomina en estadística a la agrupación de datos en categorías mutuamente excluyentes (propiedades de una variable) que indican el número de observaciones en cada una de las categorías.

Esto significa una de las cosas más importantes de la matemática, su estadística con la agrupación de datos.

La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada intervalo de clase o categoría de una variable.

90

Criterios para armar una tabla de Frecuencias

Para datos medidos en escala nominal, la organización de las categorías es indistinta.

Para datos medidos en escala ordinal, hay que respetar el orden intrínseco de las categorías que toma la variable.

Para datos cuantitativos hay que agrupar los datos en intervalos de clase, con algún criterio y teniendo el cuenta el número de datos y el recorrido de la variable. En general el número de intervalos de clase va entre 7 y no más de 15.

Page 16: 00 Introduccion General Estadistica Impresionx6

16

91

Distribución de frecuencias y porcentual del Estado civil actual

Frecuencia Porcentaje

Soltero 22593 44,5

Casado 22372 44,0

Divorciado 1339 2,6

Separado 977 1,9

Viudo 3486 6,9

Ns / Nr 32 0,1

Total 50799 100,0

Variable cualitativa nominal: el orden de las categorías de las variables es arbitrario, por lo que no se debe calcular frecuencias o Porcentajes acumulados.

Base SIEMPRO 2001

92

Frecuencia Porcentaje

Ciudad de Bs As 1133 83,0

Gran Bs As 49 3,6

Interior del País 40 2,9

Bolivia 121 8,9

Perú 5 ,4

Paraguay 15 1,1

Brasil 1 ,1

Otros Países 1 ,1

Total 1365 100,0

Encuesta Educativa en Bajo Flores

Lugar de nacimiento de los niños

93

Nivel Educativo alcanzado

Variable cualitativa ordinal: el orden de las categorías de las variables no es arbitrario, por lo que se pueden calcular frecuencias o porcentajes acumulados.

Base SIEMPRO 2001

Nivel educativo FrecuenciaFrec.

Relativa Porcentaje%

acum.

Nunca asistió 419.406 0,015 1,5% 1,5%

Preescolar 631.322 0,022 2,2% 3,6%

Primario incompleto 7.468.725 0,259 25,9% 29,5%

Primario completo 5.366.333 0,186 18,6% 48,1%

Secundario incompleto 6.778.825 0,235 23,5% 71,6%

Secundario completo 3.097.247 0,107 10,7% 82,3%

Terciario incompleto 2.842.689 0,098 9,8% 92,1%

Terciario completo 2.076.122 0,072 7,2% 99,3%

Posgrado incompleto 7.1610 0,002 0,2% 99,6%

Posgrado completo 125.939 0,004 0,4% 100,0%

Total 28878218 1 100,0%

94

Encuesta Educativa en Bajo Flores 2002

Nivel educativo alcanzado

Variable cualitativa ordinal

Frecuencia Porcentaje % Acum.

Jardín Maternal 58 5,29% 5,29%

Nivel Inicial 128 11,68% 16,97%

Nivel Primario 603 55,02% 71,99%

Nivel Medio 307 28,01% 100,00%

Total 1096 100,00%

95

DISTRIBUCIÓN DE LA POBLACIÓN SEXUALMENTE ACTIVASEGÚN EDAD DE LA PRIMERA RELACIÓN SEXUAL

Edad FA Fr % FAA FrA %A

12 16 0,049 4,9% 16 0,049 4,9%

13 37 0,114 11,4% 53 0,164 16,4%

14 47 0,145 14,5% 100 0,309 30,9%

15 75 0,231 23,1% 175 0,540 54,0%

16 51 0,157 15,7% 226 0,698 69,8%

17 35 0,108 10,8% 261 0,806 80,6%

18 29 0,090 9,0% 290 0,895 89,5%

19 16 0,049 4,9% 306 0,944 94,4%

20 18 0,056 5,6% 324 1 100,0%

Total 324 1 100,0%

Variable cuantitativa discreta

96

Comentarios sobre la tabla anterior:

Es una variables cuantitativa continua, que se truncan los meses o decimales (si una persona tiene 34 años hasta el día del cumpleaños 35 seguirá figurando la edad anterior)

En la mayoría de los casos las variables se redondean, seleccionado la cantidad de decimales según un criterio que esta relacionado con la precisión de la medición.

En la tabla anterior transformamos una variable que es continua en discreta. Como son pocas categorías no es necesario agrupar los datos, pero generalmente en las variables cuantitativas discretas con muchas categorías es necesario agrupar los datos en intervalos de clase para poder resumirlos, como observamos en la próxima tabla.

Page 17: 00 Introduccion General Estadistica Impresionx6

17

97

Encu

esta

Edu

cativ

a en

Baj

o Fl

ores

. Año

200

3

Edad

de

los

niño

s

Frecuencia PorcentajePorcentaje acumulado

0 7 0,5 ,5

1 65 4,8 5,3

2 55 4,0 9,3

3 66 4,8 14,1

4 79 5,8 19,9

5 77 5,6 25,6

6 68 5,0 30,6

7 83 6,1 36,7

8 79 5,8 42,4

9 93 6,8 49,3

10 81 5,9 55,2

11 74 5,4 60,6

12 83 6,1 66,7

13 81 5,9 72,7

14 85 6,2 78,9

15 68 5,0 83,9

16 80 5,9 89,7

17 69 5,1 94,8

18 52 3,8 98,6

19 10 0,7 99,3

20 6 0,4 99,8

21 1 0,1 99,9

22 2 0,1 100,0

Total 1364 100,0

Qué hacemos en

este caso?Agrupar con

algún criterio

98

Distribución de frecuencias y porcentual de la edad de los niños

Frecuencia PorcentajePorcentaje acumulado

0 a 4 años 272 19,9 19,9

5 a 9 años 400 29,3 49,3

10 a 14 años 404 29,6 78,9

15 a 19 años 279 20,5 99,3

20 a 24 años 9 ,7 100,0

Total 1364 100,0

Se agruparon las edades en intervalos de clase cada 5 años

Encuesta Educativa en Bajo Flores. Año 2003

99

Frecuencia % % acumulado

0 a 3 años 193 14,1 14,14 a 5 años 156 11,4 25,66 a 12 años 561 41,1 66,713 a 18 años 435 31,9 98,6más de 18 años 19 1,4 100,0

Total 1364 100,0

Edades agrupadas en intervalos de clase desiguales, que corresponden a grupos de edades según nivel educativo.

Distribución de frecuencias y porcentual de la edad de los niños

Encuesta Educativa en Bajo Flores. Año 2003

100

¿Cómo construimos y presentamos las frecuencias de una variable cuantitativa numérica?

Se arman intervalos de clase, con la misma amplitud para cada intervalo, teniendo en cuenta el recorrido o rango de la variable (valor máximo – valor mínimo).

El número de intervalos de clase dependerá del recorrido y de la amplitud de los intervalos de clase.

También el número de intervalos dependerá de la cantidad de datos que trabaje, ya que con pocos datos no podré armar una tabla con muchos intervalos de clase dado que pueden quedar vacíos (sin frecuencias).

Tampoco es necesario armar tablas con más de 15 intervalos de clase dado que se pierde la capacidad de resumir la distribución de los datos.

101

Ingreso total por hogar

Aquí dividimos a la variable en intervalos de clase de $ 1000, salvo el último intervalo que es abierto.

Para este caso en el cual observamos que la distribución es muy asimétrica, en donde la mayoría de los valores esta en el primer intervalo de clases podemos resumir los datos según lo que se desee mostrar, por ejemplo agrupado los datos utilizando medidas de posición

Frecuencia Porcentaje % acum.

Hasta $ 1000 24140319 75,5 75,5

$1000 - $ 2000 5575556 17,4 93,0

$2000 - $ 3000 1329832 4,2 97,1

$3000 - $ 4000 467138 1,5 98,6

$4000 - $ 5000 201324 ,6 99,2

$5000 - $ 6000 104382 ,3 99,6

$6000 - $ 7000 29842 ,1 99,7

$7000 - $ 8000 37682 ,1 99,8

$8000 - $ 9000 19222 ,1 99,8

$ 9000 - 10.000 10481 ,0 99,9

$ 10000 - 11.000 10922 ,0 99,9

$ 11000 - 12.000 10668 ,0 99,9

$ 12000 - 13.000 7275 ,0 100,0

$ 13000 - 14.000 1110 ,0 100,0

$ 14000 - 15.000 7716 ,0 100,0

$ 15000 - 16.000 3724 ,0 100,0

$ 18000 - 19.000 1956 ,0 100,0

Mayor a $ 20.000 276 ,0 100,0

Total 31.959.425 100,0

Base de datos SIEMPRO 2001

102

Ingreso total por hogar: SIEMPRO 2001 Una opción es presentar a la

variable usando medidas de posición que nos divida a la distribución en intervalos con igual frecuencia de datos.

Por ejemplo dividirla en 5 grupos de igual frecuencia (20% de datos para cada grupo).

A esto lo llamaremos quintiles y son medidas de

i ió ( ó i l )

Quintiles PercentilesIngresohogar

Agrupa a losSueldos entre

1 20 $ 178 $ 0 - $ 178

2 40 $ 400 $178 – $ 400

3 60 $ 700 $400 – $ 700

4 80 $ 1173 $700 – $ 1173

Mayor 100 Más de $ 1173

Base de datos SIEMPRO 2001

Page 18: 00 Introduccion General Estadistica Impresionx6

18

103

Salarios anuales en una empresa

Salarios FA % % acum.

Hasta $25.000 143 30,2 30,2

$25.000 -$ 50.000 260 54,9 85,0

$50.000 -$ 75.000 54 11,4 96,4

Más $75.000 17 3,6 100,0

Total 474 100,0

Salarios FA % % acum.

Hasta $25.000 143 30,2 30,2

$25.000 -$ 50.000 260 54,9 85,0

Más $50.000 71 15,0 100,0

Total 474 100,0

Según algún criterio se puede tomar la decisión de modificar la amplitud de los intervalos de clase.

Pablo Salgado EMAIL: [email protected]

Cómo construimos y presentamos

las frecuencias conjuntas de dos

variables cualitativas nominales u

ordinales

Pablo Salgado EMAIL: [email protected]

Tablas bivariadaso

Tablas de doble entradao

Tablas de contingencia

106

Encuesta Educativa en Bajo Flores

Variable Sexo de los niños encuestados

VARIABLE 1

Frecuencia Porcentaje

Masculino 717 52,6

Femenino 647 47,4

Total 1364 100,0

Ver archivo: base niños flores.xls (Excel) o base niños flores.sav (SPSS)

107

Encuesta Educativa en Bajo Flores

Lugar de nacimiento de los niñosVARIABLE 2

Frecuencia Porcentaje

Ciudad de Bs As 1133 83,0

Gran Bs As 49 3,6

Interior del País 40 2,9

Otros Países 143 10,5

Total 1365 100,0

108

Encuesta Educativa en Bajo Flores

VARIABLE 1 y VARIABLE 2

SexoTotal

Masculino Femenino

Lugar de nacimiento

Ciudad Bs As 600 532 1132

Gran Bs As 23 26 49

Interior del País 18 22 40

Otros Países 76 67 143

Total 717 647 1364

Frecuencia Marginal de “Sexo”

Frecuencia Marginal de “Lugar de nacimiento”

Frecuencias conjuntas

Page 19: 00 Introduccion General Estadistica Impresionx6

19

109

Encuesta Educativa en Bajo Flores

VARIABLE 1 y VARIABLE 2: % por filas(Probabilidad condicional por lugar de nacimiento)

Sexo

TotalMasculino Femenino

% Lugar de nacimiento

Ciudad Bs As 53,0% 47,0% 100% (1132)

Gran Bs As 46,9% 53,1% 100% (49)

Interior del País 45,0% 55,0% 100% (40)

Otros Países 53,1% 46,9% 100% (143)

Total 52,6% 47,4% 100% (1364)

110

Encuesta Educativa en Bajo Flores

VARIABLE 1 y VARIABLE 2: % por columna(Probabilidad condicional por sexo)

SexoTotal

Masculino Femenino

% Lugar de nacimiento

Ciudad Bs As 83,7% 82,2% 83,0%

Gran Bs As 3,2% 4,0% 3,6%

Interior del País 2,5% 3,4% 2,9%

Otros Países 10,6% 10,4% 10,5%

Total 100% (717) 100% (647) 100% (1364)

111

Encuesta Educativa en Bajo Flores

Cruzamiento entre las variableFrecuencias absolutas de Edad y Sexo en niños

Grupo de edades

Sexo Total

Masculino Femenino

0 a 4 años 141 131 272

5 a 9 años 218 182 400

10 a 14 años 205 199 404

15 a 19 años 146 132 278

20 a 24 años 6 3 9

Total 716 647 1363

112

Encuesta Educativa en Bajo Flores

Cruzamiento entre las variable% por filas

Grupo de edadesSexo Total

Masculino Femenino % - FA

0 a 4 años 51,8% 48,2% 100 % (272)

5 a 9 años 54,5% 45,5% 100 % (400)

10 a 14 años 50,7% 49,3% 100 % (404)

15 a 19 años 52,5% 47,5% 100 % (278)

20 a 24 años 66,7% 33,3% 100 % (9)

Total 52,5% 47,5% 100 % (1363)

Cuando se presenta una tabla de porcentajes por fila (probabilidad condicional), es necesario poner el número de datos de la frecuencia

marginal de cada fila.

113

Encuesta Educativa en Bajo Flores

Cruzamiento entre las variable% por columnas

Grupo de edadesSexo

TotalMasculino Femenino

0 a 4 años 19,7% 20,2% 20,0%

5 a 9 años 30,4% 28,1% 29,3%

10 a 14 años 28,6% 30,8% 29,6%

15 a 19 años 20,4% 20,4% 20,4%

20 a 24 años ,8% ,5% ,7%

Total 100 % (716) 100 % (647) 100% (1363)

Cuando se presenta una tabla de porcentajes por columnas (probabilidad condicional), es necesario poner el número de datos de la

frecuencia marginal de cada columna.

114

Encuesta Educativa en Bajo Flores

Cruzamiento entre las variable% sobre el total

Grupo de edadesSexo Total

Masculino Femenino

0 a 4 años 10,3% 9,6% 20,0%

5 a 9 años 16,0% 13,4% 29,3%

10 a 14 años 15,0% 14,6% 29,6%

15 a 19 años 10,7% 9,7% 20,4%20 a 24 años ,4% ,2% ,7%Total 52,5% 47,5% 100 % (1363)Un porcentaje de la tabla sobre el total, no da mucha información sobre la distribución bivariada, igualmente en la celda total se debe mostrar cuál es

el N de la muestra o de la población.

Page 20: 00 Introduccion General Estadistica Impresionx6

20

115

Encuesta Educativa en Bajo Flores

Nivel Educativopor Concurrencia a la escuela

Va a la escuela TotalNo Si

Grupo de edad según

Nivel educativo

0 a 3 años 158 35 193

4 a 5 años 28 128 156

6 a 12 años 10 551 561

13 a 18 años 48 387 435

más de 18 años

3 16 19

Total 247 1117 1364

116

Encuesta Educativa en Bajo Flores

Edad de los niños según Nivel Educativopor Concurrencia (% filas)

Va a la escuelaTotal

No Si

Grupo de edad según

Nivel educativo

0 a 3 años 81,9% 18,1% 100% (193)

4 a 5 años 17,9% 82,1% 100% (156)

6 a 12 años 1,8% 98,2% 100% (561)

13 a 18 años 11,0% 89,0% 100% (435)

mas de 18 años 15,8% 84,2% 100% (19)

Total 18,1% 81,9% 100,0%

Pablo Salgado EMAIL: [email protected]

GRAFICOS

118

Presentación Gráfica de DatosRepresentación de actos numéricos por medio de un dibujo

esquemático que hace visible la relación o gradación que

guardan entre sí:

• Es la manera más usual de presentación de datos

• Retrato gráfico de información cuantitativa

• Provee de una mirada la idea general de los datos

• Más fáciles de interpretar

• Menos grado de detalle

119

GráficoEje y

Eje x

Abscisa

Ordenada

p

120

Utilidades1. Tener una primera impresión de los datos antes de comenzar el análisis

(explorar).

2. Elección de tests estadísticos a realizar.

3. Poder del “Test de la ojeada”.

4. Mostrar los valores que asumen los datos.

5. Detectar patrones.

6. Comparar distintas muestras, o comparar en el tiempo.

7. Evaluar la distribución de los datos.

Page 21: 00 Introduccion General Estadistica Impresionx6

21

Pablo Salgado EMAIL: [email protected]

Gráficos de Sectores

Es exclusivo para variable cualtitativa nominales

122

Distribución porcentual de sexoBase de datos de adultos sanos

N= 585

123

Gráfico de Sectores o Circular (EPH Corrientes)1,1%

,1%

,1%

,2%

34,2%

64,3%

Vivienda en villa

Sin fines habitación

Inquilinato

Vivienda en lugar de

Departamento

Casa

Esto no conviene!!

124

Gráfico de Sectores o Circular (EPH GBA)

1,5%

34,2%

64,3%

Otro

Departamento

Casa

125

Gráfico de Sectores o Circular (EPH GBA)

1,5%

Otros

70,4%

7,4%

7,4%

14,8%

Vivienda en villa

Sin fines habitacion

Inquilinato

Vivienda en lugar de

Se entiende? Otros (1,5%) se puedeGraficar a parte

126

Gráfico de Sectores o CircularEncuesta Anual de Hogares 2009

Ciudad de Buenos Aires

Page 22: 00 Introduccion General Estadistica Impresionx6

22

127

Que asco de gráfico!!

128

Está rereremal!!!

Índice de necesidad de tratamiento de caries en niños de 5 a 7 años

n:811

Es un desastre

130

Est

a bi

en?

Índice de necesidad de tratamiento de caries en niños de 5 a 7 años

131

Índice de necesidad de tratamiento de caries en niños de 5 a 7 años

O m

ejor

asi

?

132

Y e

ste?

???

Vam

os e

legí

uno

!!!

Índice de necesidad de tratamiento de caries en niños de 5 a 7 años

Page 23: 00 Introduccion General Estadistica Impresionx6

23

133

Pablo Salgado EMAIL: [email protected]

Gráficos de Barras

• Es exclusivo para variable cualitativas nominales y ordinales.

• También se puede usar para variables cuantitativas discretas con poco recorrido de la variable.

135

Diagrama de Barras Mejor para atributos no numéricos.

Datos Nominales.

Datos Ordinales (eje no arbitrario).

Altura proporcional al número de casos.

Barras del mismo ancho.

Distancias entre barras iguales.

Se puede utilizar frecuencias absolutas, relativas y

porcentuales.

Pablo Salgado EMAIL: [email protected]

Gráfico de Barras

Verticales

Variables cualitativas nominales

137

Gráfico de barras verticales con frecuencias absolutas

Base SIEMPRO 2001

138

Gráfico de barras verticales con Porcentajes

Base SIEMPRO 2001

Page 24: 00 Introduccion General Estadistica Impresionx6

24

139

Producciones Extendidas 1996/97Gráfico de barras verticales con frecuencias absolutas

Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca y Alimentación, SAGPyA, 2003.

140

Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca y Alimentación, SAGPyA, 2003.

Producciones Extendidas 1996/97Gráfico de barras verticales con %

Pablo Salgado EMAIL: [email protected]

Gráfico de Barras

Verticales

Variables cualitativas ordinales

142

• Gráfico de barras verticales para variables cualitativas ordinales.

• En el eje de las x (variables) hay que respetar el orden.

Ingreso promedio mensual de los ocupados de 10 años y más por máximo nivel educativo alcanzado. Ciudad de Buenos Aires. Año 2008

2.161

1.1891.383

1.898

3.189

0

500

1.000

1.500

2.000

2.500

3.000

3.500

Total Hasta primarioincompleto

Primario completo/secundarioincompleto

Secundariocompleto/ superior

incompleto

Superior completo ymás

Pes

os

Fuente: Dirección General de Estadística y Censos (Ministerio de Hacienda GCBA). EAH 2008.

144

Distribución porcentual del nivel de instrucción alcanzadoBase de datos de adultos sanos

N= 585

Page 25: 00 Introduccion General Estadistica Impresionx6

25

145

Distribución porcentual del indice de masa corporalBase de datos de adultos sanos

N= 585

146

n=1254

Porcentaje de pacientes con exceso de peso que atienden los profesionales de la salud

Pablo Salgado EMAIL: [email protected]

Gráfico de Barras Verticales

Variables cuantitativas discretas

148

EPH: Provincia de Corrientes

• Grafico de barras para variables cuantitativas discretas.

• No están los datos agrupados.

Cantidad de personas en el hogar

1614121110987654321

Por

cent

aje

20

18

16

14

12

10

8

6

4

2

0

149

EPH: Provincia de Corrientes

Cantidad de habitaciones que tiene en el hogar

1187654321

Por

cent

aje

40

30

20

10

0

150

Índice de necesidad de tratamiento de caries en niños de 5 a 7 años

Page 26: 00 Introduccion General Estadistica Impresionx6

26

151

Gráfico de Barras

Horizontales

152

País de Origen de los que respondieron la encuestan=836

Indicadores por Región de base poblacional: Tasa de cesáreas

24,5%

24,8%

26,9%

27,5%

27,8%

30,0%

31,1%

37,3%

0% 5% 10% 15% 20% 25% 30% 35% 40%

PBA

CABA

NEA

Total País

NOA

Centro

Cuyo

Patagonia

Brecha 1,5Rango: 12,8%

154

Estimación estadística obtenida de las oficinas locales del SENASA año 2002.

Gráfico de barras horizontales para variables cualitativas nominales ordenados de mayor a menor frecuencia (si la variable es ordinal, no se puede cambiar el orden de las categorías de la variables).

155

Pablo Salgado EMAIL: [email protected]

Distribuciones Bivariadas

Gráfico de Barras Adyacentes

156

Page 27: 00 Introduccion General Estadistica Impresionx6

27

157

Diagrama de barras adyacentes. Es la representación gráfica de una tabla de contingencia. Este tipo de grafico permite visualizar

si hay relación entre variables.

158

Evolución de la soja durante el quinquenio 1996/97 – 2001/02 respecto a otras producciones extensivas.

Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca yAlimentación, SAGPyA, 2003.

159

Evolución de la soja durante el quinquenio 1996/97 – 2001/02 respecto a otras producciones extensivas.

Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca yAlimentación, SAGPyA, 2003.

160

Distribución porcentual del indice de masa corporal por sexoBase de datos de adultos sanos

N= 585

161

Distribución porcentual del indice de masa corporal por sexoBase de datos de adultos sanos

N= 585

162

Porcentaje de pacientes atendidos con exceso de peso por Especialidad Médica

n=1254

Page 28: 00 Introduccion General Estadistica Impresionx6

28

Pablo Salgado EMAIL: [email protected]

Distribuciones Bivariadas

Gráfico de Barras Superpuestas

164

Gráfico de Barras Superpuestas

Grupo etáreo según Nivel educativo

mas de 18 años

13 a 18 años

6 a 12 años

4 a 5 años

0 a 3 años

80

70

60

50

40

30

20

10

0

Va a la escuela

Si

No

165

Gráfico de Barras Superpuestas Al 100%Compara como contribuye cada categoría al total

166

Evolución de la soja durante el quinquenio 1996/97 – 2001/02 respecto a otras producciones extensivas.

167

Gráfico de Barras Superpuestas Al 100%Compara como contribuye cada categoría al total

Tasa neta de escolarización de la población de 13 a 17 años. Nivel de enseñanza Secundario, según zona. Ciudad de Buenos Aires. Año 2009.

Fuente: Dirección General de Estadística y Censos (Ministerio de Hacienda GCBA). EAH 2009.

8

4

13

2

56

7

9

10

14

15

13

11

12

Zona A (norte)

Zona B (este)

Zona C (sur)

Zona D (oeste)

Zona E (centro)

86,0

95,4

82,8

73,8

84,0

88,2

50

60

70

80

90

100

Total A (norte) B (este) C (sur) D (oeste) E (centro)

Page 29: 00 Introduccion General Estadistica Impresionx6

29

169

En general, los datos nominales se describen en términos de porcentajes o proporciones (frecuencias relativas).

Las tablas de contingencia, gráficos circulares y gráficas de barras son las mas comunes para mostrar esta clase de información.

Las mismas clases de cuadros y gráficas que se utilizan pare exhibir datos nominales se usan también con datos ordinales, salvo el diagrama circular que podríamos decir que es exclusivo de los datos nominales.

Pablo Salgado EMAIL: [email protected]

Gráficos para Variables

Continuas

170

171

HistogramasSe usa para distribuciones de frecuencias de variables

cuantitativas discretas o continuas.

Eje Horizontal: Límites de cada intervalo (en general de igual tamaño)

Eje Vertical: frecuencia absoluta, relativa o porcentual; comenzando en el en origen (cero).

La frecuencia asociada a cada intervalo está dada por el área de la barra.

Area total: 100% ó 1

172

Histograma con 25 intervalos de clase

Sujetos Adultos sanos:

173

Histograma con 9 intervalos de clase

Sujetos Adultos sanos:

174

EPH Corrientes

Monto de ingreso total familiar

5500

5250

5000

4750

4500

4250

4000

3750

3500

3250

3000

2750

2500

2250

2000

1750

1500

1250

1000

750

500

250

0

35000

30000

25000

20000

15000

10000

5000

0

Page 30: 00 Introduccion General Estadistica Impresionx6

30

175

Minimental Test

176

Distribución de edades de los encuestados

n=1254

177

Distribución de edades de los encuestados

n=1254

Pablo Salgado EMAIL: [email protected]

Gráficos bivariados:

para un variable cualitativa y una variables cuantitativa continuas

179

Pirámide de Población

180

Box-Plots (Diagrama de Cajas) Variables Discretas/Contínuas

Muy útiles para tener una idea general de todos los

datos

Simetría

Diagnóstico de distribución normal vs. no normal

Comparar distribuciones en varios grupos

Page 31: 00 Introduccion General Estadistica Impresionx6

31

181

BOXPLOT: Variables Continuas/Discretas

Percentilo 25

Percentilo 75

Mediana

=Media

Grupo A Grupo B

Percentilo 25

Percentilo 75

=Media

Mediana

Valores Extremos

Valor atípicos

Valores adyacentes

La caja contieneEl 50% de los

valores centrales

182

Box-Plots (Construcción)• Ordenar los datos y obtener Max, Min, Q1, Q2 y Q3

• Dibujar un rectángulo con Q1 y Q3.

• Dibujar la mediana (Q2)

• Calcular los límites inferior y superior:• Li = Q1 - 1,5 (Q3 - Q1)

• Ls= Q3 + 1,5 (Q3 - Q1)

• Considerar como atípicos los valores exteriores al intervalo

• Dibujar una línea desde los extremos del rectángulo hasta los valores límites.

• Identificar los datos fuera del intervalo como atípicos

183

n=1254

Diagrama de cajas: Edad por Género

184

Diagrama de Cajas:Variable: perímetro de cintura

n= 585

185

Índice de necesidad de tratamiento de caries en niños de 5 a 7 años por escuela

186

Barras de errores Variables Continuas.

Muy útiles para comparar y graficar diferencias entre

variables teniendo en cuenta el promedio y alguna medida

de dispersión (desvió estándar, error estándar o intervalo de

confianza).

Como condición las variables deben ser simétricas y

aproximarse a la distribución normal.

Comparar distribuciones en varios grupos.

Page 32: 00 Introduccion General Estadistica Impresionx6

32

187

Diagrama de Barras de Errores

648716N =

Sexo

FemeninoMasculino

95

% I

C E

da

d

10,2

10,0

9,8

9,6

9,4

9,2

9,0

Límite superior del IC al 95%

Límite inferior del IC al 95%

Promedio

188

189

Pablo Salgado EMAIL: [email protected]

Algunos consideraciones entre:

Diagramas de caja

Barra de errores

190

191

El diagrama de barra de errores, utiliza para graficar la tendencia central y la dispersión medidas de posición (mediana, cuartiles y desvíos intercuartiles), lo que permite apreciar la simetría de la distribución de la variable y los valores atípicos y extremos.

En los gráficos de barra de errores, se utiliza el promedio y los derivados del desvío estándar (error estándar). Si la variable es asimétrica este gráfico no lo muestra como tampoco los valores atípicos y extremos. Se recomienda utilizarlos en caso que se tenga la certeza de que la variables con la que estamos trabajando tenga una distribución cercana a la Distribución Normal o de Gauss.

192

Histograma y Diagrama de cajas: Variable Asimétrica no gausiana

Page 33: 00 Introduccion General Estadistica Impresionx6

33

193

Barra de errores y Diagrama de cajas: Variable muy Asimétrica no gausiana

Diagramade cajas

Barra de errores con distintos intervalos:Intervalo de confianza al 95%, un y dos desvíos estándar

194

195

Distribución z score

Percentiles

196

197

Diagrama de cajas

198

Distribución Normal

Page 34: 00 Introduccion General Estadistica Impresionx6

34

199

Minimental Test

4254N =

NormalOlvido Benigno

Min

ime

nta

l Te

st

31

30

29

28

27

26

25

1938

1

200

Mediana

25%-75%

Rango Hombre Mujer

Género del empleado

10000

20000

30000

40000

50000

60000

70000

80000

90000

SA

LA

RIO

Mean

Mean±SE

Mean±SD Hombre Mujer

Género del empleado

10000

20000

30000

40000

50000

60000

70000

80000

90000

SA

LA

RIO

201

202

Pablo Salgado EMAIL: [email protected]

Gráficos para bivariado

Variables Cuantitativas Continuas

204

Page 35: 00 Introduccion General Estadistica Impresionx6

35

205

19,0

18,3

17,1

18,2

19,0

15,2

16,0

15,5

16,416,0 16,0

13,5

14,4 14,314,0

12,5

14,3

11,8

12,6

10,3

9,0 9,2

9,9 10,1

8,5

7,8 7,9 7,9

7,3

8,3

6,7

4

6

8

10

12

14

16

18

20

TMI DGEyC

Tasa de mortalidad infantil anual (muertos por mil nacidos). Ciudad de Buenos Aires. Año 2010

206

4

6

8

10

12

14

16

18

20

1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010

TMI a

nual

Año

Curva de regresión ajustada

TMI DGEyC

Tasa de mortalidad infantil anual (muertos por mil nacidos). Ciudad de Buenos Aires. Año 2010

207

Peso = - 58 + 80 x TallaR cuadrado = 0,263

208

IMC = 3,4 + 0,26 x PCR cuadrado = 0,55

209

Resumen sobre estadísticos Tendencia Central:

Indican valores con respecto a los que los datos parecen agruparse: Media, mediana y moda

Posición:

Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos: Cuantiles, percentiles, cuartiles, deciles,...

Dispersión:

Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización: Desviación típica, coeficiente de variación, rango, varianza

Forma: Asimetría y Curtosis

210

Estadígrafos

de Tendencia Central

de Posición

de Dispersión

De Formas

Especificas

Page 36: 00 Introduccion General Estadistica Impresionx6

36

211 212

MEDIDAS DE TENDENCIA CENTRAL

Una descripción que simplifica y que representa

apropiadamente a la variable, o al conjunto de

datos recolectados de una variable, son las

medidas de tendencia central como el promedio,

la mediana y la moda.

213

La media o promedio es una estimación del valorcentral, en torno al cual fluctúan los valores hallados.

Es importante marcar que la media contienesolamente una parte de la información que los datosproporcionan. No da ninguna indicación sobre lavariabilidad de las mediciones, y esta es unainformación esencial sobre todo en el momento en quees necesario comparar por ejemplo si dos o másmuestras pertenecen a la misma población.

214

Promedio o Media aritmética

Población:

Muestra:

215

Mediana Corresponde a la observación central; es decir es el valor de la

variable que supera a la mitad de las observaciones (o es menor a la otra mitad).

En variables cualitativas nominales no se puede utilizar.

En variables cualitativas ordinales es la categoría de la variable que contiene al 50 % de la frecuencia porcentual acumulada.

216

Altura mediana

Page 37: 00 Introduccion General Estadistica Impresionx6

37

217

Altura mediana

218

La mediana de un conjunto de números naturales

ordenados en magnitud es:

El valor central si el conjunto es impar

La media de los dos valores centrales si el

conjunto es par.

Para datos cuantitativos discretos:

219

Ejemplo con N impar:

El conjunto de números

tiene mediana = 6.

Ejemplo con N par:

El conjunto de números 5,5,5,9,11,12,15, 18, 19 y 21

220

Modo o ModaEs el valor o categoría de la variable que se presentan

con mayor frecuencia.

Para variables cualitativas (nominales u ordinales),

la moda es la categoría de mayor frecuencia.

Para variables cuantitativas en general es el punto

medio del intervalo de clases de mayor frecuencia.

221

La moda puede no existir, e incluso no ser única en caso de existir.

Es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa de

realizar ningún cálculo.

Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que

tengan la misma frecuencia, en cuyo caso tendremos una distribución bimodal o polimodal según el caso.

222

Ejemplo 1:El conjunto 2,2,5,7,9,9,9,10,10,11,12 y 18

Moda=9Ejemplo 2:

El conjunto 3,5,8,10,12,15 y 16no tiene moda.Ejemplo 3:

Conjunto 2,3,4,4,4,5,5,7,7,7 y 9tiene dos modas, 4 y 7 (bimodal).

Page 38: 00 Introduccion General Estadistica Impresionx6

38

223

Pablo Salgado EMAIL: [email protected]

Posiciones relativas de la media, la mediana y la moda

para distribuciones de frecuencias asimétricas

225

Cuando la distribución de frecuencias de la variable es simétrica, coinciden ( o son muy parecidas) las medidas de tendencia central.

Cuando hay una asimetría en la distribución de las frecuencias, indica que hay valores extremos hacia una dirección de la variable y una acumulación de datos en la otra dirección de la variable.

El promedio esta influenciado por los valores extremos, en cambio la mediana no y la moda se encontrará en un extremo de la distribución (datos acumulados).

Siendo distintos los valores de las tres medidas de posición.

Pablo Salgado EMAIL: [email protected]

Ejemplo de una distribución de frecuencias asimétricas

227

Monto de ingreso total familiar CBA y Conurbano BA

1375

0 -

1450

0

1300

0 -

1375

0

1225

0 -

1300

0

1150

0 -

1225

0

1075

0 -

1150

0

1000

0 -

1075

0

9250

-10

000

8500

-92

50

7750

-85

00

7000

-77

50

6250

-70

00

5500

-62

50

4750

-55

00

4000

-47

50

3250

-40

00

2500

-32

50

1750

-25

00

1000

-17

50

250

-10

00

700

600

500

400

300

200

100

0

EstadísticosMedia: $ 1212Mediana: $ 800Moda: $ 600

n=1159

228

Monto de ingreso total familiar CBA y Conurbano BA

14000

12000

10000

8000

6000

4000

2000

0

n=1159

Page 39: 00 Introduccion General Estadistica Impresionx6

39

229

Monto de ingreso total familiar CBA y Conurbano BA

Pablo Salgado EMAIL: [email protected]

Ejemplo de una distribución de frecuencias simétricas

231

Edad del Encuestado

77 -

83

72 -

77

66 -

72

61 -

66

56 -

61

50 -

56

45 -

50

40 -

45

34 -

40

29 -

34

24 -

29

18 -

24

13 -

18

8 -

13

Fre

cuen

cia

100

80

60

40

20

0

EstadísticosMedia: 37,5Mediana: 37,0Moda: 38,0n= 507

232

507N =

Edad del Encuestado

Eda

d

90

80

70

60

50

40

30

20

10

0

233

Edad del Encuestado

234

Medidas de posición Las medidas de posición son “índices diseñados para

revelar la situación de una puntuación con respecto a

un grupo, utilizando a éste como marco de referencia”.

Indican para cierto puntaje de la variable qué cantidad

de valores están por debajo de él (cuantiles o fractiles).

Page 40: 00 Introduccion General Estadistica Impresionx6

40

235

Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada

Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

236

Las medidas de posición dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra.

Así en psicología los resultados de los Test o pruebas que realizan a un determinado individuo, se clasifican según el percentil correspondiente a la puntuación obtenida por el sujeto.

237

Si un conjunto de datos ordenados (por ejemplo, de

menor a mayor) es dividido en cuatro partes iguales,

obtenemos la medida de posición denominada cuartil;

si dividimos a ese mismo conjunto en 10 partes

iguales, obtenemos los deciles; y si se divide la

distribución en 100 secciones iguales, obtenemos 99

valores llamados percentiles

238

Hay diferentes tipos de cuantiles, pero en

general son valores que dejan por debajo

de él una cierta fracción de los datos

ordenados en forma creciente y el resto por

encima.

239

Cuando la fracción es la mitad, se trata de la mediana.

- Cuartiles: Dividen a la distribución en 4 partes iguales. El primer cuartil Q1 deja el 25% de los valores por debajo. El segundo cuartil es igual a la mediana y el tercero Q3 deja el 75%.

- Deciles: Dividen a la distribución en 10 partes iguales. El primer decil D1 deja el 10% de los valores por debajo y el resto por encima. El quinto decil es la mediana.

- Percentiles: Dividen a la distribución en 100 partes del total. Así, el percentil veinticuatro ( P24 ) deja el 24% de los valores por debajo. El percentil cincuenta es la mediana, o el quinto decil.

240

Variable cuantitativa contínua

Page 41: 00 Introduccion General Estadistica Impresionx6

41

Pablo Salgado EMAIL: [email protected]

Ejemplo: aplicación en el crecimiento de niños

242

243 244

245 246

Page 42: 00 Introduccion General Estadistica Impresionx6

42

247 248

Percentiles

5 19,00

10 21,80

25 28,00

50 37,00

75 46,00

90 53,00

95 59,00

Edad del Encuestado

249

Ejemplos El 5% de los recién nacidos tiene un peso demasiado bajo.

¿Qué peso se considera “demasiado bajo”? Percentil 5 o cuantil 0,05

¿Qué peso es superado sólo por el 25% de los individuos? Percentil 75

El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales? Entre el percentil 5 y el 95

¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población? Entre el cuartil 1º y 3º

250

¿Qué peso no llega a alcanzar el 25% de los individuos? Primer cuartil = percentil 25 = 60 Kg.

¿Qué peso es superado por el 25% de los individuos? Tercer cuartil= percentil 75= 80 kg.

¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? Entre el primer y tercer cuartil = entre 60 y 80 kg.

Observar que indica cómo de dispersos están los individuos que ocupan la “parte central” de la muestra. Ver más adelante rango intercuartílico.

Los diagramas de caja (‘boxplot’) sintetizan esta información (y algo más).

Ejemplo

50%

251

Medidas de Dispersión o Variabilidad Las medidas de dispersión son índices que establecen el

grado en que se parecen o se diferencian entre sí un conjunto

de datos.

Una distribución de frecuencias será homogénea o poco

variable si los datos difieren poco entre sí y, por tanto, se

concentran en torno a su promedio. Será heterogénea o muy

variable si los datos se dispersan mucho con respecto al

promedio.

252

¿Por qué estudiar la dispersión?

Es posible evaluar la confiabilidad del promedio que se está

utilizando. Si los valores se concentran en torno a la media,

esta última se considera representativa de los datos. Por el

contrario, una dispersión grande indica que la media no es

confiable.

Una medida de dispersión permite apreciar cuán dispersas

son dos o más distribuciones.

Page 43: 00 Introduccion General Estadistica Impresionx6

43

253

Por ejemplo, supóngase que un nuevo modelo de

computadora se ensambla en dos plantas de una

fábrica: la Planta A y B. La media aritmética de la

producción diaria en ambas plantas es 50. Con base en

las dos medias se podrá llegar a la conclusión de que

las distribuciones de las producciones diarias son

idénticas.

254

Pero si las dispersiones varían de una muestra a

la otra, esta conclusión no es correcta (por

ejemplo, si la producción en la Planta A varía de

48 a 52 ensambles por día, mientras que en la

Planta B varía de 40 a 60, diremos que en esta

segunda Planta la producción es más errática).

255

Las medidas de tendencia central tratan de describir un valor

representativo o típico de los dato. Otro aspecto que hay que tener

en cuenta es como se distribuyen los datos alrededor de la media.

Por ejemplo decir que el promedio del colesterol total es 5,81 nos

indica el valor típico de los datos. Es una información útil, pero

para lograr una idea mejor de la distribución de los valores de

estos pacientes se requiere conocer algo acerca de la dispersión

de datos. ¿Qué podemos decir si un paciente tiene 5,92 o 5,25 ?

256

• Las medidas para evaluar la dispersión son las siguientes:

1. Amplitud Total o extensión (recorrido o rango)

2. Desviación semiintercuartil

3. Desviación típica o Standard

4. Variancia (o varianza)

5. Coeficiente de variación

257

MEDIDAS QUE CALCULAN LA DISPERSION

RANGO: Es la diferencia entre la observación más grande y la menor. Por

ejemplo el valor más pequeño de colesterol total es 3,8 y el más alto es

8,8.

Por lo tanto el Rango:

RM = x máximo - x mínimoRM = 8,8 - 3,8 = 5

Muchos autores dan los valores mínimos y máximos en lugar del rango y

en algunos casos estos valores son de información más útil desde el

punto de vista descriptivo.

258

Amplitud Total (o rango)El rango es la medida de dispersión más sencilla.

Es la diferencia entre el valor más alto y el más bajo de un conjunto de datos.

Rango = valor más alto – valor más bajo

Consideremos los siguientes grupos de calificaciones en tres cursos diferentes:

A: 6, 6, 6, 6, 6, 6

B: 5, 6, 7, 8, 7, 3

C: 2, 3, 4, 7, 9, 11

Los tres grupos poseen la misma media aritmética, pero mientras en el curso A no hay variaciones (todos los alumnos obtuvieron un 6), el curso B (rango = 5) y C (rango = 9) ha mostrado importantes variaciones, siendo este último el de mayor variabilidad.

Page 44: 00 Introduccion General Estadistica Impresionx6

44

259

Varianza (variancia)La varianza es el promedio de las desviaciones cuadráticas con

respecto a la media. Es un índice basado en la idea de que, al

elevar al cuadrado las distancias con respecto a la media antes

de hallar su promedio, no suman cero. Además los cuadrados

son siempre positivos.

Para los datos sin agrupar, la fórmula es:

Para datos agrupados:

260

Desviación típica o estándar • Resulta difícil interpretar la varianza para un

solo conjunto de observaciones.

• La variancia de 106.8 para las edades de

los pacientes no está en términos de años,

sino más bien en años al cuadrado.

• Por ello resulta útil retomar las unidades de

medición originales.

261

Desviación típica o estándar Esto es lo que hace la desviación estándar, al calcular la

raíz cuadrada de la varianza. Así, se establece con mayor

precisión una “separación promedio” de las distancias de

cada uno de los valores de la variable a la media.

Es un mejor descriptor de la variabilidad y siempre es

positiva. En el ejemplo anterior, la raíz cuadrada de 106.8

años2 es de 10.3 años.

262

Coeficiente de Variación• El coeficiente de variación sirve para comparar la variabilidad

de grupos cuya media es claramente distinta. Se relativiza la

desviación típica con respecto a la media y se expresa como un

porcentaje.

• Por ejemplo, un grupo de niños de 7 años mide una talla media

= 1.3 con una s = 0.05. Por otro lado, sabemos que su peso

medio es = 25 con una s = 2 Kg. La pregunta que nos hacemos

es: ¿qué es más variable: el peso o la talla?

263

Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de

“qué tamaño tiene con respecto a la media”

También se la denomina variabilidad relativa.

Es frecuente mostrarla en porcentajes Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso

que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente

Por ejemplo 0ºC ≠ 0ºF

Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso).

264

Mientras en la Ciencias Exactas, un sistema de medición con

coeficientes superiores al 10% es inaceptable, en Clínica,

donde las variabilidades inherentes al material de trabajo son

mucho más grandes, no se puede ser tan estricto.

Por eso se sugiere usar :

25% < CV% < 50% poco aceptables

10% < CV% < 25% aceptable

CV% < 10% muy aceptable

Page 45: 00 Introduccion General Estadistica Impresionx6

45

265

Medidas de asimetría Las medidas de asimetría determinan si las frecuencias se

concentran más hacia los valores bajos (asimetría positiva) o

hacia los valores altos de la variable (asimetría negativa). Si

una distribución de frecuencias es simétrica, el sesgo es nulo

(es decir, igual a 0). En las distribuciones simétricas, el

promedio, la mediana y la moda coinciden (caen en el mismo

punto de la distribución). Pero, casi todas las distribuciones

tomadas de datos reales tiene algún grado de asimetría.

266

Lo que esperamos, para tratar a una distribución como simétrica, es que el grado de asimetría sea lo más cercano a 0 posible.

El coeficiente de asimetría (C.A.) se encuentra generalmente entre –3 y +3.

La fórmula para calcular el sesgo de una distribución es:

C.A. = 3 * (X - Mediana)

Desvío estándar

267 268

269

Asimetría o Sesgo

Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.

En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide

La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.

La media tiende a desplazarse hacia las valores extremos (colas).

Las discrepancias entre las medidas de centralización son indicación de asimetría.

270

Estadísticos para detectar asimetría Hay diferentes estadísticos que sirven para detectar

asimetría.

Basado en diferencia entre estadísticos de tendencia central.

Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.

Basados en desviaciones con signo respecto a la media. En este se basa SPSS. No lo calcularemos

manualmente en este curso.

En función del signo del estadístico diremos que la asimetría es positiva o negativa.

Distribución simétrica asimetría nula.

La asimetría es adimensional.

Page 46: 00 Introduccion General Estadistica Impresionx6

46

271

Curtosis La curtosis se refiere a la altura o aplanamiento del polígono de

frecuencia.

Cuando la curva es muy puntiaguda, se la denomina leptocúrtica, si es muy chata, platicúrtica, y si es normal, mesocúrtica.

La asimetría y la curtosis son medidas independientes, por lo que una distribución puede ser simétrica y, por ejemplo, leptocúrtica. O, por el contrario, ser asimétrica y mesocúrtica.

De cualquier modo, si la distribución de frecuencias es cercana a la normal, el sesgo deberá tender a 0 y la curva deberá tender a ser mesocúrtica.

272

273 274

Apuntamiento o curtosis

Los gráficos poseen la misma media

y desviación típica, pero con

diferente grado de apuntamiento.

En el curso serán de especial interés

las mesocúrticas y simétricas

(parecidas a la normal).

• La curtosis nos indica el grado de apuntamiento aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional.

Platicúrtica: curtosis < 0

Mesocúrtica: curtosis = 0

Leptocúrtica: curtosis > 0

275

• Esta distribución es frecuentemente utilizada en las

aplicaciones estadísticas.

• Su propio nombre indica su extendida utilización,

justificada por la frecuencia o normalidad con la

que ciertos fenómenos tienden a parecerse en su

comportamiento a esta distribución.

Distribución Normal276

• La importancia de la distribución normal se debe principalmente a que hay muchas

variables asociadas a fenómenos naturales que siguen el modelo de la normal:

• Caracteres morfológicos de individuos (personas, animales, plantas,.. de una

especie, peje. tallas, pesos, envergaduras, diámetros, perímetros,... )

• Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o

de una misma cantidad de abono.

• Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo

grupo de individuos, puntuaciones de examen.

• Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a

un medio,...

• Errores cometidos al medir ciertas magnitudes.

• Valores estadísticos muestrales, por ejemplo : la media.

Page 47: 00 Introduccion General Estadistica Impresionx6

47

277

MediaMedia - DS Media + DSMedia – 2 DS Media + 2 DS

Campana de Gauss

Pablo Salgado EMAIL: [email protected]

Proporciones y porcentajes

Razones

Índices y Tasas

279

Una proporción es el número de

observaciones con una característica

dada (cualidad) dividido entre el

número total de observaciones.

Un porcentaje es una proporción

multiplicada por 100

280

Una razón es el número de observaciones en un grupo dado con

una característica dada dividido entre el número de

observaciones sin la característica dada (como no haber

muerto):

Una razón se define siempre, como una parte dividida entre otra

parte. Por ejemplo, entre pacientes que recibieran una

medicación, la razón de los que murieron a los que sobrevivieron

es:

muertos / vivos

281

Índices o Tasas son semejantes a las

proporciones excepto porque se usa un

multiplicador (por ejemplo, 1.000, 10.000 o

100.000) y se calculan por un espacio

especifico de tiempo.