Upload
vlifschitz4906
View
234
Download
7
Embed Size (px)
DESCRIPTION
estadistica
Citation preview
1
Pablo Salgado EMAIL: [email protected]
Variables
Concepto y Clasificación según su nivel de medición
2
¿Qué es una variable? Las variables representan un concepto de vital importancia
dentro de un proyecto de investigación.
Las variables se refieren a propiedades de la realidad que
cambian, en contraposición a las propiedades constantes de
ciertos fenómenos.
Las variables, son los conceptos que forman enunciados de
un tipo particular denominado hipótesis. Los conceptos
pretenden describir y explicar la experiencia y comunicar el
conocimiento obtenido.
3
¿Qué es una variable?
Los conceptos están situados en un plano teórico mientras que las variables están situadas en un plano concreto y perceptible por los sentidos.
La relación entre ambas cosas es lo que se busca mediante el proceso de investigación científica, lo cual se logra por medio de las definiciones operacionales de los conceptos.
4
Las variables, son características de la realidad que puedan ser determinadas por observación y que puedan mostrar diferentes valores o categorías de una unidad de observación a otra, de un individuo a otro.
A partir de característica o propiedad las unidades de análisis de una muestra o población, se pueden diferenciar o no entre si.
Ejemplo: sexo, edad, nivel educativo alcanzado, peso, número de hijos, ingresos mensuales, estado civil, etc.
5
Dependencia entre variablesVariables dependientes: son características de
la realidad que se ven determinadas o que
dependen de los valores que asuman otros
fenómenos o variables independientes.
Variables independientes: Los cambios en los
valores de este tipo de variables determinan
cambios en los valores de otras (variable
dependiente).
6
En una investigación se denomina variable independiente a aquélla que es manipulada por el investigador en un experimento con el objeto de estudiar cómo incide sobre la expresión de la variable dependiente.Esto significa que las variaciones en la variable
independiente repercutirán en variaciones en la variable dependiente.En algunas situaciones hay co-dependencia
entre variables, por lo tanto no hay variables independientes (ejemplo asociación entre peso y altura).
2
7
Por ejemplo, si un investigador desea conocer la efectividad de un nuevo tratamiento para prevenir una enfermedad, para ello se seleccionarán dos grupos independientes. A uno se le aplicará un tratamiento (casos) y otro al que no se le aplicará nada en absoluto (controles).
Para que el experimento tenga validez ambos grupos deben estar sometidos a las mismas condiciones para evitar que no aparezcan influencias de otras variables intervinientes (no controladas).
En este caso la variable independiente corresponde a la aplicación o no del tratamiento y la dependiente a la aparición o no de la enfermedad.
Pablo Salgado EMAIL: [email protected]
Clasificación de las variables:
Escalas de medición
9
La escala de medida de una característica o variable,
tiene consecuencias en la forma de presentación de la
información y resumen estadístico.
La escala de medición, el grado de exactitud y
precisión en la medición de las variables, también
determina los métodos estadísticos que se usan para
analizar los datos.
Por tanto, es importante definir las características que
se van a medir y que escala de medición va a utilizar,
antes de comenzar cualquier trabajo estadístico.
10
Variables cualitativas: Son las variables que expresan distintas cualidades,
características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos.
Los niveles de medición de las variables cualitativas pueden ser nominales y ordinales.
Las variables cualitativas pueden ser dicotómicascuando sólo pueden tomar dos categorías o atributos posibles como sí y no, hombre y mujer o son politómicas cuando pueden adquirir tres o más categorías.
11
Variables CualitativasSe denomina a cualquier variable no susceptible de ser
cuantificada. Siendo un atributo, cualidad o factor.Ejemplos:
o Estado Civil.o Sexo.o Profesión.o Calidad de un producto.o Evaluación en el nivel primario.
Se clasifican en:
Variables Cualitativas Nominales
Variables Cualitativas Ordinales
Pablo Salgado EMAIL: [email protected]
Variables con escala de medición nominal
12
3
Podemos decir que es el nivel de medición más rudimentario.
Consiste en aplicar números o símbolos para clasificar a los objetos, personas y características
Las propiedades formales de la Escala Nominal, es decir, las condiciones que requiere, son que los miembros observaciones o elementos de una clase o categoría deben se equivalentes, idénticos respecto a la propiedad que tenemos en cuenta.
13 14
Son aquellas variables en el que los gruposse definen o diferencian por la presencia deun atributo o característica.
En este nivel de medición los valores nopueden ser sometidos a un criteriojerárquico. Estas variables no tienen ningúnorden inherente entre los atributos ni unorden de jerarquía.
15
La forma más sencilla de determinar si las observaciones
se miden con una escala nominal es peguntar si se
clasifican o se colocan en categorías equivalentes.
Con este tipo de escalas se pueden hacer algunas
operaciones estadísticas; por ejemplo contar cuantos
elementos hay en cada uno de los grupos formados y asi
tenemos las frecuencias absolutas por categoría o
atributo.
16
Como estadístico descriptivo se pueden calcular
frecuencias o porcentaje para cada atributo y ver
cuál es el grupo que tiene mayor frecuencia
alcanzando el concepto de “Moda”.
También obtener algunas medidas de
asociación/independencia cuando se relacionan
variables entre sí (tabla de contingencia).
Los gráficos más comunes para representar este
nivel de medición son los de sectores o barras.
17
Ejemplos de variables con escala nominal:
Clasificación por sexo: En donde las categorías posibles
son Femenino y Masculino (dicotómica).
Presencia o ausencia de una enfermedad (dicotómica).
Especialidades médicas en Consultorios Externos de un
hospital: Clínica Médica, Cardiología, etc. (politómica).
Razas de Ganado Bovino: Hereford, Shorton,
Aberdeen Angus , Charolaise (politómica).
Pablo Salgado EMAIL: [email protected]
Variables con escala de medición ordinal
18
4
19
Si hay un orden inherente entre las categorías,
se dice que las observaciones se miden en una
escala ordinal.
Estas observaciones aun se clasifican como en
las escalas nominales, pero algunas tienen
“más” o son “más grandes que” otras.
20
Son aquellas en que los grupos se establecen deacuerdo a la intensidad con que se presente un atributodeterminado. Si las categorías, atributos o valores queadopte una variable cualitativa poseen un orden,secuencia o progresión natural esperable, hablaremosde variable ordinal.
Puede establecerse orden, pero no medirse distanciadentro de ese orden. La medida estadística de tendenciacentral más apropiada para estas escalas es la"mediana“ y también las medidas de posición como loscuartiles, quintiles, deciles o percentiles.
21
Ejemplo: Los tumores, se clasifican en estadios o etapas
según su grado de desarrollo:
La clasificación internacional para valorar la etapa de un
carcinoma de cuello uterino es una escala ordinal de 0 a IV.
Donde la etapa 0 representa carcinoma in situ y la etapa IV
carcinoma que se extiende mas allá de la pelvis o que afecta
a la mucosa de vejiga y recto.
Desde luego, por orden inherente en esta escala ordinal, la
etapa IV tiene peor pronóstico que la 0.
22
EJEMPLOS DE ESCALAS ORDINALES
Grado de un Carcinoma.
Nivel de ejercitación desarrollado por semana: Alto,
medio, bajo, nulo.
Estudios cursados: Analfabetos, primarios,
secundarios, terciarios, universitarios.
Escala de Apgar del recién nacido.
Escalas de dolor.
Escalas del Coma de Glasgow.
Escalas Likert.
23
Una característica importante de las escalas ordinales es
que aunque existe un orden entre categorías la diferencia
entre dos grupos adyacentes no es la misma en la escala.
Para ilustrarlo, considérense las calificaciones APGAR, que
describen la madurez de niños recién nacidos en una
escala de 0 a 10, los valores menores indican depresión de
funciones cardiorrespiratorias y neurológicas. Sin embargo,
es probable que la diferencia entre una calificación de 8 y
una de 10 no sea de la misma magnitud que entre 4 y 6.
24
PUNTUACION DE APGAR
LOS VALORES DE CADA UNA DE LAS CINCO CATEGORÍAS SE SUMAN PARA GENERAR UN RESULTADO QUE VA DE 0 A 10.
SIGNO PUNTUACION
0 1 2Frecuencia cardíaca Ausente < 100 > 100
Respiración Ausente Lenta, irregular Regular, lloroso
Tono Muscular Relajado Flexión lenta Motor activo
Color Azuloso, pálido Cuerpo rosáceo, extremidades azulosa
Rosáceo en su totalidad
Respuesta refleja al catéter en fosa nasal
Ninguna Muecas Tos, estornudo
5
25
Este tipo de escalas ordinales que se construyen sumando la codificación de varias variables ordinales y obteniendo un puntaje final o total, en muchas ocasiones se pueden tratar como si fueran variables cuantitativas (continuas o discretas, según el caso).
Podemos denominarlas escalas de puntaje o scores para diferenciarlas de las variables cuantitativas.
Ejemplos de este tipo de variables complejas:
Escala de depresión de Beck, Minimental, Indice Clínico de Demencia, Coeficiente Intelectual, Escalas que miden la Atención, memoria, Escalas que miden la condición de un paciente (Coma de Glasgow, Apache II) y muchos otros.
26
Las categorías de las escalas nominales y
ordinales deben poder establecerse en forma
objetiva.
No se puede utilizan criterios arbitrarios o que
puedan llevar a confusión. Estos criterios, deben
ser claramente estipulados, de tal forma que
cualquier persona pueda repetir la clasificación.
IMPORTANTE:
Pablo Salgado EMAIL: [email protected]
Variables con escala de medición cuantitativa o
numérica
27 28
Son las variables que se expresan mediante cantidades numéricas.
Las variables cuantitativas se clasifican en:
Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. (Números enteros)
Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores, siempre existe un valor entre dos cualesquiera.
29
Todas las escalas numéricas pueden transformarse (agruparse) en escalas nominales y ordinales. Lo inverso no se puede realizar.
Si le asignamos un valor numérico a las categorías de una escala ordinal o nominal, estos no deben ser tratados como datos numéricos sino como un código para identificar al atributo o categoría.
EJEMPLOS DE ESCALAS NUMERICAS Peso. Estatura. Edad. Perímetro cefálico.
Número de hijos. Cantidad de habitaciones. Número de Partos. Cantidad de alumnos.
30
Variables Cuantitativas
Como se describió anteriormente, se denominaa cualquier variable susceptible de ser medidaen términos numéricos.
Ejemplos:
• Tensión arterial.
• Peso.
• Edad.
• Temperatura.
• Número de hijos.
6
31
La propiedad mas importante que presentan, por encima
de las escalas cualitativas, es que las distancias
numéricas iguales representan distancias iguales
empíricas.
Así podemos decir que a dos objetos a los que se ha
asignado en este tipo de escalas los números 5 y 10 están
igualmente separados que otros dos a los que se ha
asignado los números 10 y 15. Que algo que mida 4 es el
doble de otro que mide 2.
32
ESCALAS CUANTITATIVAS
Cuando una escala tiene todas las características de una escala ordinal y se conoce la distancia entre dos números cualesquiera.
Discretas
De intervalos
Continuas
De cocientes o razones
33
Cuando una observación solamente puede
medirse en valores enteros, la escala de
medición es discontinua o discreta.
La forma de medir en general es contando
unidades como por ejemplo hijos, embarazos,
cantidad de personas que se necesitan para una
tarea.
ESCALAS DISCRETAS34
Variables Cuantitativas Discretas:
Ejemplos:
Número de pacientes.
Número de habitaciones.
Número de personas que viven en un hogar.
Cantidad de médicos por paciente.
Número de camas de una sala de internación.
Frecuencia cardíaca.
Nº de células
35
Escalas cuantitativas contínuasUna escala de medida esta caracterizada por
una medida común y constante que asigna un número real a todos los pares de objetos en un conjunto ordenado.
Ejemplo de variables continuas:
Edad, peso, metros cuadrados de una jaula,
concentración de hemoglobina.
36
Una de las distinciones que se pueden hacer es entrelas variables cuantitativas que usan una escala denúmeros donde cero significa que la característica noexiste, y las variables cuantitativas que no atribuyen esesignificado a un punto cero.
Muchas de las variables cuantitativas (por ejemploingresos mensuales) poseen ese punto cero, de talmanera que quien gana $0 no gana nada, carececompletamente del atributo que estamos analizando. Deigual forma quien gana $1000 al día gana el doble quequien gana $500 al día (Escalas cuantitativas continuasde cociente o razón).
7
37
Otras variables cuantitativas no poseen en punto cero,tal es el caso de la temperatura: un objeto contemperatura cero no carece completamente de calor;en consecuencia un objeto cuya temperatura es 10º noes el doble de caliente que uno con temperatura 5ºsino simplemente 5º más caliente. (Escalascuantitativas continuas intervalares).
Muchas de las variables cuantitativas inventadas porlas Ciencias Psicológicas y Sociales pertenecen a estetipo.
38
Variables Cuantitativas Contínuas:
Son aquellas variables que pueden tomar infinitos
valores dentro de un intervalo.
Ejemplos:
Ingresos anuales por personal
Temperatura corporal.
Peso en gramos de un recién nacido.
Concentración de Glucosa en sangre.
39
Tipos de variables
Tipos de variables
Cuantitativas
Discretas
Continuas
Intervalares
Cociente o razón
Puntajes o Scores
Dicotómica
Politómica
Ordinales
Nominales
Cualitativas
40
Nivel de mediciónde las variables
Intervalares
Cociente o razón
Ordinales
Nominales
Discretas
Pablo Salgado EMAIL: [email protected]
CÓMO ORDENAR LOS DATOS?
Pablo Salgado EMAIL: [email protected]
Te paso la base de datos
Estaré queriendo decir:
Archivo de datos
8
43
Para que los datos sean útiles, es necesario organizar
las observaciones de modo tal que se pueda reconocer
y distinguir el comportamiento de las características
observadas y sus relaciones.
Lo importante es que del tipo de observaciones
realizadas y el nivel de medición alcanzado (cómo se
midieron), determinarán las clases de cuadros, gráficas
y tablas de resumen que exhiben y comunican mejor las
observaciones.
También definirá los métodos estadísticos a utilizar.
44
Durante la recolección de los datos los especialistas en
estadística seleccionan sus observaciones de manera que todos
los grupos relevantes estén representados en la muestra.
Para determinar la opinión sobre política, por ejemplo, los
especialistas podrían estudiar a un grupo de personas que
tengan diferentes nivel de ingresos, nivel educativo, barrio,
grupo de edades, en las mismas proporciones que en la
población estudiada y siempre y cuando estas variables tengan
(o se supone que tienen) alguna relación sobre la opinión
política.
45
Los datos puede provenir de observaciones hechas por el
investigador o de registros elaborados con otros propósitos. Por
ejemplo, con fines de facturación y de informes médicos, un
hospital registra el número de pacientes que utilizan el tomógrafo
computado. Esta información cruzada con otras variables relevadas
(patologías, edad, sexo, etc.), puede organizarse para producir
resultados que los especialistas pueden describir o interpretar.
Cuando los datos se ordenan de manera compacta y útil, el
procesamiento de los datos y los resultados obtenidos hace que los
responsables de la toma de decisiones pueden obtener información
rápida y confiable.
46
RECOLECCION DE DATOS
Recolección propia: Fuente de información primaria
Censo vs. Muestreo.
Si es una muestra de la población debe representar a todos
los grupos. Inferencia estadística.
Fuentes de terceros: Fuente de información secundaria
Los datos pueden provenir de diferentes fuentes de
información.
Validez y confiabilidad de las fuentes de información?.
47
Fuentes de informaciónFuentes de información primaria:
Aquella fuente que es creada para producir/recolectar información
especifica para monitorear o evaluar un indicador.
Información original, que se difunde por primera vez.
Fuentes de información Secundaria:
Es aquella que es realizada por terceros.
Produce información útil para medir alguno de nuestros indicadores.
No tenemos ingerencia en la metodología ni otros procesos del estudio.
Reduce los costos.
Involucra a sectores no tradicionales en la producción de información.
48
Pruebas para saber si los datos son confiables:
1. De dónde provienen los datos? La fuente es tendenciosa? Es
posible que exista interés para proporcionar datos que
conduzcan a ciertas conclusiones buscadas?
2. Los datos apoyan o contradicen otras evidencias que se tienen?
3. Cuantas observaciones se tienen? Representan a todos los
grupos que se desea estudiar?
4. La conclusión es lógica según nuestra experiencia? Se ha
llegado a conclusiones que los datos no confirman?
9
Pablo Salgado EMAIL: [email protected]
Organización de los
Datos relevados
Pablo Salgado EMAIL: [email protected]
COMO ARMAR UNARCHIVO DE DATOS
PARA SER USO DE PROGRAMAS QUE TIENE COMO FUNCIÓN
EL ANALISIS Y EL PROCESAMIENTO ESTADÍSTICO
51
El primer paso luego de medir y relevar las
variables seleccionadas es organizar la
carga de datos en un soporte informático,
para su posterior procesamiento y
análisis.
Esto se puede hacer en una planilla de
Cálculo como el Excel o en programas para
el ingreso de datos (Data entry).
52
Generalmente los datos recogidos de
un relevamiento estadístico se organiza
en forma de una “Matriz de Datos”.
Una matriz es un arreglo bidimensional
en forma de filas y columnas.En las columnas se colocan las variables relevadas.
En las filas se colocan a cada unidad de observación, unidad de análisis o caso.
53
identificador Var1 Var2 Var3 Var4 Var5 Var6
1
2
3
4
5
6
Variables
Un
idad
es d
e an
ális
is
54
Como se observa en la primera fila se escriben los nombres de las variables
En las subsiguientes filas se cargan los valores o códigos de cada caso o Unidad de análisis y para cada variable a lo largo de la fila.
No se tienen que unir celdas.
Tampoco dejar filas o columnas vacías.
10
Si es en el programa Excel:No se deben dejar cálculos hechos a los costados
o al final de la matriz de datos ni tampoco gráficos.
Si los hacemos tendrán que ubicarse en otra hoja.
No se tienen que unir celdas.
Tampoco dejar filas o columnas vacías.
Si no tenemos en cuenta estos detalles al abrir/exportar en un programa para análisis estadístico, lo hará con errores o no lo abrirá.
55
Pablo Salgado EMAIL: [email protected]
Variables cualitativas
con respuestas Múltiples
Archivo: “preguntas múltiples.xls”
57
Este tipo de variables no respeta el criterio de “mutuamente excluyente” como propiedades de una variable.
Por lo tanto para cada opción o categoría se tomará como una variable, teniendo tantas variables dicotómicas como opciones tenga la variable con respuestas múltiple. Ej:
Cada categoría u opción se convertirá en una columna en la base de datos indicando: “Si” (1) o “No”(0)
58
Respuestas múltiplesID Intr_Inadec Set_insuf Asist_insuf Imponer_impl No_indicado Provis_tard
1 0 0 1 0 1 0
2 1 0 0 0 0 1
3 1 1 0 1 0 1
4 0 0 1 1 1 0
5 0 1 1 0 1 0
6 1 1 1 1 1 1
7 1 1 1 0 1 1
8 1 1 1 0 1 1
9 1 1 0 1 0 1
… … … … … … …
59
Variables con Respuestas MúltiplesSon variables o “reactivos” de un cuestionario o encuesta (preguntas), en el
cual una unidad de análisis (encuestado) puede seleccionar más de una de
las categorías que toma la variable.
Ej: medicación antiepiléptica que toma un paciente.
Ej: tipo de literatura que le gusta leer.
Ej: tipo de géneros músicales que escucha.
Para poder informatizar en una base datos se transforma a cada categoría en
una variable. Dependiendo de cual sea la pregunta o reactivo la
categoría/variable puede ser nominal dicotómica (presencia o ausencia),
nominal politómica u ordinal.
60
Este tipo de variables no respeta el criterio de “mutuamente excluyente” que vimos con anterioridad como propiedades de una variable.
Por lo tanto para cada opción o categoría se tomará como una variable, teniendo tantas variables como opciones tenga la variable con respuestas múltiple.
Ej: ¿Qué tipo de texto le gusta leer?:
Enciclopedia:___ Manual:___ Policial:___ Aventura:___
Ciencia ficción:___ Terror:___ Novela:___ Poesía:___ Deporte:___
Cada categoría u opción se convertirá en una columna en la base de datos indicando si “lee” (1) o “no lee”(0).
11
Pablo Salgado EMAIL: [email protected]
RECOLECCIÓN DE
DATOS PROCESAMIENTO
SITEMATIZACIÓN Y
ANÁLISIS
DECALOGO DEL PLAN DE INVESTIGACIÓN1 • Identificar el problema
2 • Buscar bibliografía
3 • Redactar objetivos
4 • Elegir a quienes estudiar
5 • Elegir qué datos recolectar
6• Definir pasos (Diseño)
7 • Planificar el registro de datos
8 • Planificar el análisis de datos
9 • Evaluar la viabilidad ética y material del proyecto
10 • Decidir donde se va a publicar o presentar el informe
Una vez recolectados los datos…
¿Cómo llego desde este punto a lograr ….
cumplir los objetivos?
contrastar la hipótesis?
responder a la pregunta de investigación?
¿Qué hay que diseñar?
1. Procesamiento
2. Sistematización
3. Análisis
4. Presentación
Varían según el nivel de
medición de las variables y
Varia según diseño de
investigación
1. Procesamiento Tareas “mecánicas o automatizada” necesarias
para volver útil la información para el análisis.
Datos: Numeración de planillas (identificación de Unidad de Análisis) Codificación: Ej. 1=Si, 2=No. Traducción: Ej. Fecha de nacimiento -> Edad Tabulación: Ej. Escala visual de Dolor, Cuestionario de Dash,
Ejemplo:
Traducción y codificación:
junior=1, Adherente=2, Certificado=3, Rectificado=4, vitalicio=5
CategoríaSocietaria:
Junior Adherente Certificado Recertificado Titular Vitalicio
Organización y volcado de la información en un ARCHIVO DE DATOS DIGITALPuede ser: Informática, manual o mixta.
Con asistencia de programas inespecíficos o específicos:
Excel, EpiInfo, Epidata, Access etc.
Datos cuantitativos
Armado de bases de datos: UA, V
Volcado de datos en la base
Asignación de etiquetas para valores perdido y/o que no corresponden.
Reagrupar/recodificar de valores en nuevas escalas: Cuantitativo Ordinal o Nominal
Edad Sexo TrabajaResidenci
a Educación …….
1 25 2 2 1 1 1
2 22 2 2 3 3 1
3 31 2 1 2 4 2
4 37 1 1 2 2 1
U.A.
Variable Valor
2. Sistematización
Lugar de resid 1=Cap Fed, 2=GBA, 3=Interior PBAModalidad: 1= Lic / 2 = CCCTrabaja: 1=SI, 2=NO.Máximo nivel de estudios alcanzados: 1=sin estudios, 2=primario, 3=secundario, 4= Terc./Univ.
Códigos:
12
Elección del tipo de análisis estadístico
Permite resumir la información y comparar los datos con herramientas estadísticas.
Estadística descriptiva
Estadística inferencial: Univariado, bivariado y multivariado
3. Análisis Análisis de datos: Descriptivo
Variables cualitativas: frecuencias, %, moda, cuartiles. Gráficos circular, Gráficos de barras
Variables cuantitativas: media, mediana, moda, cuantiles, varianza/desvío estándar. Gráficos histograma, diagramas de caya, barra de errores
Analítico Comparación de medias (test de student, Análisis de la Varianza)
Comparación de proporciones
Riesgo Relativo y Odds Ratio
Curvas de supervivencia
Significación estadística es suficiente? Significación técnica/clínica
68
Tablas de distribución de frecuencia
Descriptivos de tendencia central y dispersión Gráficos
4. Presentación de resultados
Distrib. por sexo de los estudiantes de enfermería
Frecuencia Porcentaje
Varón 40 21,4
Mujer 147 78,6
Total 187 100,0
EDAD Estadístico
Media 28,9
Mediana 25,0
Varianza 97,3
Desv. estándar
9,9
Mínimo 17
Máximo 63
Rango 46 ENCUESTA (n=504 encuestados)
Criterios en los cuales fundamenta la elección de un implante
4. Presentación de resultados
Gráfico bivariado:Sin control prenatal por Regiónes del País
Brecha 3,7Rango: 7,6%
2,8%
3,7%
4,2%
5,3%
5,4%
6,7%
7,2%
7,3%
10,4%
0% 2% 4% 6% 8% 10% 12%
Patagonia
PBA Interior
Centro
CABA
Cuyo
TOTAL PAIS
NEA
Conurbano
NOA
4. Presentación de resultados Índice de Masa Corporal
Estimación de riesgo para sobrepeso y obesidad
Odds Ratio ValorIntervalo de confianza 95%
Inferior Superior
Sexo (Masculino / Femenino) 2,5 1,8 3,3
En esta muestra, los hombres tiene 2,5 veces mas chances
de sufrir sobrepeso u obesidad que las mujeres,
13
Madres adolescentes y NO uso de MAC
Madre adolescente
Tasa de No uso de MAC
No Uso Uso
Si 60,3% 39,7%
No 49,3% 50,7%
Odds Ratio ValorIC 95%
Inferior Superior
Madre adolescente(No Uso / Uso)
1,71 1,58 1,85
60,3%
39,7%
49,3% 50,7%
0%
10%
20%
30%
40%
50%
60%
70%
No uso Uso
Tasa de no uso de MAC
Adolescente No Adolescente
74
Edad del paciente
Sexo Media MedianaDesv.
estándar
N Mínimo Máximo
Masculino 58,0 56,0 13,4 57 25 87
Femenino 63,0 62,5 14,6 72 23 92
Total 61,0 59,0 14,2 129 23 92
REGISTRO DE IMPLANTES:
Remplazo total de cadera
Edad de los pacientes por sexo
N=197
Pablo Salgado EMAIL: [email protected]
ESTADISTICA
DESCRIPTIVA
76
La estadística descriptiva es una gran parte de la estadística que propone resumir, analizar y representar los datos.
Generalmente este análisis es muy básico y sirve para caracterizar y resumir a las variable obtenidas.
Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central (Promedio, mediana y moda), para ver en qué medida los datos se agrupan o dispersan en torno a un valor central.
77
En la mayor parte de los casos, del conjunto de datos que se obtienen en un estudio estadístico, no se desprende ninguna información útil de manera inmediata y evidente.
Los datos obtenidos tiene que ser organizados de tal manera que la información que contienen se resuma para mostrar patrones de variación.
Por otro lado solamente cuando se conocen las características de los datos se pueden decidir los métodos de análisis estadístico a realizar.
78
En esta clase se verá cómo clasificar y resumir los
diferentes tipos de variables obtenidos en un trabajo
estadístico y mostrar cómo se organizan y exhiben
estos resultados.
Cualquiera que sea el estudio estadístico que se
realice, los primeros pasos del procesamiento de
datos es, en general, transformarlos en cuadros,
gráficas o resúmenes de cifras, como porcentajes,
índices o parámetros que representan a una variable.
14
Pablo Salgado EMAIL: [email protected]
Exploración y
Presentación de Datos
Pablo Salgado EMAIL: [email protected]
Como resumir los datos estadísticos
Análisis Exploratorio
81
TABLAS DE FRECUENCIAS.
Asigna a cada categoría el número de elementos que pertenecen a
ella.
Permite visualizar la distribución de frecuencias de la variable.
GRAFICOS.
Es la representación gráfica de los resúmenes de datos presentados
en tablas.
PARAMETROS / ESTADISTICOS.
Medidas que representan o caracterizan a la variable, siendo de
tendencia central, posición, dispersión, forma o construidos (índices,
tasas o variables complejas).
Pablo Salgado EMAIL: [email protected]
Ejemplo
83
TABLAS
Años Frecuencia Porcentaje % acum.
0 2 0,1 0,1
3 5 0,3 0,5
4 5 0,3 0,8
5 6 0,4 1,2
6 12 0,8 2,0
7 25 1,7 3,6
8 68 4,5 8,1
9 56 3,7 11,9
10 73 4,8 16,7
11 85 5,6 22,3
12 461 30,5 52,8
13 130 8,6 61,5
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,8 90,7
17 43 2,8 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1510 100,0
Estadígrafos Años
Media 12,88
Mediana 12,00
Moda 12
Percentiles
10 9,00
20 11,00
25 12,00
30 12,00
40 12,00
50 12,00
60 13,00
70 14,00
75 15,00
80 16,00
90 16,00
ParámetrosEstadísticos
Tablas
Gráficos
Formas de resumir los
datos
84
TABLAS
Años Frecuencia Porcentaje % acum
0 2 0,1 0,1
3 5 0,3 0,5
4 5 0,3 0,8
5 6 0,4 1,2
6 12 0,8 2,0
7 25 1,7 3,6
8 68 4,5 8,1
9 56 3,7 11,9
10 73 4,8 16,7
11 85 5,6 22,3
12 461 30,5 52,8
13 130 8,6 61,5
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,8 90,7
17 43 2,8 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1510 100,0
Estadígrafos Años
Media 12,88
Mediana 12,00
Moda 12
Percentiles
10 9,00
20 11,00
25 12,00
30 12,00
40 12,00
50 12,00
60 13,00
70 14,00
75 15,00
80 16,00
90 16,00
ParámetrosEstadísticos
Tablas
Gráficos
Mediana
15
85
TABLAS
Años Frecuencia Porcentaje % acum
0 2 0,1 0,1
3 5 0,3 0,5
4 5 0,3 0,8
5 6 0,4 1,2
6 12 0,8 2,0
7 25 1,7 3,6
8 68 4,5 8,1
9 56 3,7 11,9
10 73 4,8 16,7
11 85 5,6 22,3
12 461 30,5 52,8
13 130 8,6 61,5
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,8 90,7
17 43 2,8 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1510 100,0
Estadígrafos Años
Media 12,88
Mediana 12,00
Moda 12
Percentiles
10 9,00
20 11,00
25 12,00
30 12,00
40 12,00
50 12,00
60 13,00
70 14,00
75 15,00
80 16,00
90 16,00
ParámetrosEstadísticos
Tablas
Gráficos
Percentil 75
86
TABLAS
Años Frecuencia Porcentaje % acum
0 2 0,1 0,1
3 5 0,3 0,5
4 5 0,3 0,8
5 6 0,4 1,2
6 12 0,8 2,0
7 25 1,7 3,6
8 68 4,5 8,1
9 56 3,7 11,9
10 73 4,8 16,7
11 85 5,6 22,3
12 461 30,5 52,8
13 130 8,6 61,5
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,8 90,7
17 43 2,8 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1510 100,0
Estadígrafos Años
Media 12,88
Mediana 12,00
Moda 12
Percentiles
10 9,00
20 11,00
25 12,00
30 12,00
40 12,00
50 12,00
60 13,00
70 14,00
75 15,00
80 16,00
90 16,00
ParámetrosEstadísticos
Tablas
Gráficos
Percentil 20
87
Cuando se trabaja con un conjunto grande de datos, laforma de organizarlos y resumirlos es construyendoTablas de Frecuencias de las variables de interes.
Esto nos permitirá observar como se distribuyen losdatos a lo largo del recorrido de la variable.
Podremos observar donde están más concentrados, sihay datos extremos, si hay simetría en la distribuciónetc.
Distribución de Frecuencias
88
TIPOS DE FRECUENCIAS Frecuencias Absolutas Frecuencias Relativas Frecuencias Porcentuales Frecuencias Absolutas Acumuladas Frecuencias Relativas Acumuladas Frecuencias Porcentuales Acumuladas
Además dependiendo de cuál sea el nivel de medición de las
variables, el número de datos que se obtuvieron y el número de
variables involucradas en el resumen, se construirá diferentes
tipos de tabla de frecuencia.
89
Distribución de frecuencias es como se denomina en estadística a la agrupación de datos en categorías mutuamente excluyentes (propiedades de una variable) que indican el número de observaciones en cada una de las categorías.
Esto significa una de las cosas más importantes de la matemática, su estadística con la agrupación de datos.
La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada intervalo de clase o categoría de una variable.
90
Criterios para armar una tabla de Frecuencias
Para datos medidos en escala nominal, la organización de las categorías es indistinta.
Para datos medidos en escala ordinal, hay que respetar el orden intrínseco de las categorías que toma la variable.
Para datos cuantitativos hay que agrupar los datos en intervalos de clase, con algún criterio y teniendo el cuenta el número de datos y el recorrido de la variable. En general el número de intervalos de clase va entre 7 y no más de 15.
16
91
Distribución de frecuencias y porcentual del Estado civil actual
Frecuencia Porcentaje
Soltero 22593 44,5
Casado 22372 44,0
Divorciado 1339 2,6
Separado 977 1,9
Viudo 3486 6,9
Ns / Nr 32 0,1
Total 50799 100,0
Variable cualitativa nominal: el orden de las categorías de las variables es arbitrario, por lo que no se debe calcular frecuencias o Porcentajes acumulados.
Base SIEMPRO 2001
92
Frecuencia Porcentaje
Ciudad de Bs As 1133 83,0
Gran Bs As 49 3,6
Interior del País 40 2,9
Bolivia 121 8,9
Perú 5 ,4
Paraguay 15 1,1
Brasil 1 ,1
Otros Países 1 ,1
Total 1365 100,0
Encuesta Educativa en Bajo Flores
Lugar de nacimiento de los niños
93
Nivel Educativo alcanzado
Variable cualitativa ordinal: el orden de las categorías de las variables no es arbitrario, por lo que se pueden calcular frecuencias o porcentajes acumulados.
Base SIEMPRO 2001
Nivel educativo FrecuenciaFrec.
Relativa Porcentaje%
acum.
Nunca asistió 419.406 0,015 1,5% 1,5%
Preescolar 631.322 0,022 2,2% 3,6%
Primario incompleto 7.468.725 0,259 25,9% 29,5%
Primario completo 5.366.333 0,186 18,6% 48,1%
Secundario incompleto 6.778.825 0,235 23,5% 71,6%
Secundario completo 3.097.247 0,107 10,7% 82,3%
Terciario incompleto 2.842.689 0,098 9,8% 92,1%
Terciario completo 2.076.122 0,072 7,2% 99,3%
Posgrado incompleto 7.1610 0,002 0,2% 99,6%
Posgrado completo 125.939 0,004 0,4% 100,0%
Total 28878218 1 100,0%
94
Encuesta Educativa en Bajo Flores 2002
Nivel educativo alcanzado
Variable cualitativa ordinal
Frecuencia Porcentaje % Acum.
Jardín Maternal 58 5,29% 5,29%
Nivel Inicial 128 11,68% 16,97%
Nivel Primario 603 55,02% 71,99%
Nivel Medio 307 28,01% 100,00%
Total 1096 100,00%
95
DISTRIBUCIÓN DE LA POBLACIÓN SEXUALMENTE ACTIVASEGÚN EDAD DE LA PRIMERA RELACIÓN SEXUAL
Edad FA Fr % FAA FrA %A
12 16 0,049 4,9% 16 0,049 4,9%
13 37 0,114 11,4% 53 0,164 16,4%
14 47 0,145 14,5% 100 0,309 30,9%
15 75 0,231 23,1% 175 0,540 54,0%
16 51 0,157 15,7% 226 0,698 69,8%
17 35 0,108 10,8% 261 0,806 80,6%
18 29 0,090 9,0% 290 0,895 89,5%
19 16 0,049 4,9% 306 0,944 94,4%
20 18 0,056 5,6% 324 1 100,0%
Total 324 1 100,0%
Variable cuantitativa discreta
96
Comentarios sobre la tabla anterior:
Es una variables cuantitativa continua, que se truncan los meses o decimales (si una persona tiene 34 años hasta el día del cumpleaños 35 seguirá figurando la edad anterior)
En la mayoría de los casos las variables se redondean, seleccionado la cantidad de decimales según un criterio que esta relacionado con la precisión de la medición.
En la tabla anterior transformamos una variable que es continua en discreta. Como son pocas categorías no es necesario agrupar los datos, pero generalmente en las variables cuantitativas discretas con muchas categorías es necesario agrupar los datos en intervalos de clase para poder resumirlos, como observamos en la próxima tabla.
17
97
Encu
esta
Edu
cativ
a en
Baj
o Fl
ores
. Año
200
3
Edad
de
los
niño
s
Frecuencia PorcentajePorcentaje acumulado
0 7 0,5 ,5
1 65 4,8 5,3
2 55 4,0 9,3
3 66 4,8 14,1
4 79 5,8 19,9
5 77 5,6 25,6
6 68 5,0 30,6
7 83 6,1 36,7
8 79 5,8 42,4
9 93 6,8 49,3
10 81 5,9 55,2
11 74 5,4 60,6
12 83 6,1 66,7
13 81 5,9 72,7
14 85 6,2 78,9
15 68 5,0 83,9
16 80 5,9 89,7
17 69 5,1 94,8
18 52 3,8 98,6
19 10 0,7 99,3
20 6 0,4 99,8
21 1 0,1 99,9
22 2 0,1 100,0
Total 1364 100,0
Qué hacemos en
este caso?Agrupar con
algún criterio
98
Distribución de frecuencias y porcentual de la edad de los niños
Frecuencia PorcentajePorcentaje acumulado
0 a 4 años 272 19,9 19,9
5 a 9 años 400 29,3 49,3
10 a 14 años 404 29,6 78,9
15 a 19 años 279 20,5 99,3
20 a 24 años 9 ,7 100,0
Total 1364 100,0
Se agruparon las edades en intervalos de clase cada 5 años
Encuesta Educativa en Bajo Flores. Año 2003
99
Frecuencia % % acumulado
0 a 3 años 193 14,1 14,14 a 5 años 156 11,4 25,66 a 12 años 561 41,1 66,713 a 18 años 435 31,9 98,6más de 18 años 19 1,4 100,0
Total 1364 100,0
Edades agrupadas en intervalos de clase desiguales, que corresponden a grupos de edades según nivel educativo.
Distribución de frecuencias y porcentual de la edad de los niños
Encuesta Educativa en Bajo Flores. Año 2003
100
¿Cómo construimos y presentamos las frecuencias de una variable cuantitativa numérica?
Se arman intervalos de clase, con la misma amplitud para cada intervalo, teniendo en cuenta el recorrido o rango de la variable (valor máximo – valor mínimo).
El número de intervalos de clase dependerá del recorrido y de la amplitud de los intervalos de clase.
También el número de intervalos dependerá de la cantidad de datos que trabaje, ya que con pocos datos no podré armar una tabla con muchos intervalos de clase dado que pueden quedar vacíos (sin frecuencias).
Tampoco es necesario armar tablas con más de 15 intervalos de clase dado que se pierde la capacidad de resumir la distribución de los datos.
101
Ingreso total por hogar
Aquí dividimos a la variable en intervalos de clase de $ 1000, salvo el último intervalo que es abierto.
Para este caso en el cual observamos que la distribución es muy asimétrica, en donde la mayoría de los valores esta en el primer intervalo de clases podemos resumir los datos según lo que se desee mostrar, por ejemplo agrupado los datos utilizando medidas de posición
Frecuencia Porcentaje % acum.
Hasta $ 1000 24140319 75,5 75,5
$1000 - $ 2000 5575556 17,4 93,0
$2000 - $ 3000 1329832 4,2 97,1
$3000 - $ 4000 467138 1,5 98,6
$4000 - $ 5000 201324 ,6 99,2
$5000 - $ 6000 104382 ,3 99,6
$6000 - $ 7000 29842 ,1 99,7
$7000 - $ 8000 37682 ,1 99,8
$8000 - $ 9000 19222 ,1 99,8
$ 9000 - 10.000 10481 ,0 99,9
$ 10000 - 11.000 10922 ,0 99,9
$ 11000 - 12.000 10668 ,0 99,9
$ 12000 - 13.000 7275 ,0 100,0
$ 13000 - 14.000 1110 ,0 100,0
$ 14000 - 15.000 7716 ,0 100,0
$ 15000 - 16.000 3724 ,0 100,0
$ 18000 - 19.000 1956 ,0 100,0
Mayor a $ 20.000 276 ,0 100,0
Total 31.959.425 100,0
Base de datos SIEMPRO 2001
102
Ingreso total por hogar: SIEMPRO 2001 Una opción es presentar a la
variable usando medidas de posición que nos divida a la distribución en intervalos con igual frecuencia de datos.
Por ejemplo dividirla en 5 grupos de igual frecuencia (20% de datos para cada grupo).
A esto lo llamaremos quintiles y son medidas de
i ió ( ó i l )
Quintiles PercentilesIngresohogar
Agrupa a losSueldos entre
1 20 $ 178 $ 0 - $ 178
2 40 $ 400 $178 – $ 400
3 60 $ 700 $400 – $ 700
4 80 $ 1173 $700 – $ 1173
Mayor 100 Más de $ 1173
Base de datos SIEMPRO 2001
18
103
Salarios anuales en una empresa
Salarios FA % % acum.
Hasta $25.000 143 30,2 30,2
$25.000 -$ 50.000 260 54,9 85,0
$50.000 -$ 75.000 54 11,4 96,4
Más $75.000 17 3,6 100,0
Total 474 100,0
Salarios FA % % acum.
Hasta $25.000 143 30,2 30,2
$25.000 -$ 50.000 260 54,9 85,0
Más $50.000 71 15,0 100,0
Total 474 100,0
Según algún criterio se puede tomar la decisión de modificar la amplitud de los intervalos de clase.
Pablo Salgado EMAIL: [email protected]
Cómo construimos y presentamos
las frecuencias conjuntas de dos
variables cualitativas nominales u
ordinales
Pablo Salgado EMAIL: [email protected]
Tablas bivariadaso
Tablas de doble entradao
Tablas de contingencia
106
Encuesta Educativa en Bajo Flores
Variable Sexo de los niños encuestados
VARIABLE 1
Frecuencia Porcentaje
Masculino 717 52,6
Femenino 647 47,4
Total 1364 100,0
Ver archivo: base niños flores.xls (Excel) o base niños flores.sav (SPSS)
107
Encuesta Educativa en Bajo Flores
Lugar de nacimiento de los niñosVARIABLE 2
Frecuencia Porcentaje
Ciudad de Bs As 1133 83,0
Gran Bs As 49 3,6
Interior del País 40 2,9
Otros Países 143 10,5
Total 1365 100,0
108
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2
SexoTotal
Masculino Femenino
Lugar de nacimiento
Ciudad Bs As 600 532 1132
Gran Bs As 23 26 49
Interior del País 18 22 40
Otros Países 76 67 143
Total 717 647 1364
Frecuencia Marginal de “Sexo”
Frecuencia Marginal de “Lugar de nacimiento”
Frecuencias conjuntas
19
109
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2: % por filas(Probabilidad condicional por lugar de nacimiento)
Sexo
TotalMasculino Femenino
% Lugar de nacimiento
Ciudad Bs As 53,0% 47,0% 100% (1132)
Gran Bs As 46,9% 53,1% 100% (49)
Interior del País 45,0% 55,0% 100% (40)
Otros Países 53,1% 46,9% 100% (143)
Total 52,6% 47,4% 100% (1364)
110
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2: % por columna(Probabilidad condicional por sexo)
SexoTotal
Masculino Femenino
% Lugar de nacimiento
Ciudad Bs As 83,7% 82,2% 83,0%
Gran Bs As 3,2% 4,0% 3,6%
Interior del País 2,5% 3,4% 2,9%
Otros Países 10,6% 10,4% 10,5%
Total 100% (717) 100% (647) 100% (1364)
111
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variableFrecuencias absolutas de Edad y Sexo en niños
Grupo de edades
Sexo Total
Masculino Femenino
0 a 4 años 141 131 272
5 a 9 años 218 182 400
10 a 14 años 205 199 404
15 a 19 años 146 132 278
20 a 24 años 6 3 9
Total 716 647 1363
112
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variable% por filas
Grupo de edadesSexo Total
Masculino Femenino % - FA
0 a 4 años 51,8% 48,2% 100 % (272)
5 a 9 años 54,5% 45,5% 100 % (400)
10 a 14 años 50,7% 49,3% 100 % (404)
15 a 19 años 52,5% 47,5% 100 % (278)
20 a 24 años 66,7% 33,3% 100 % (9)
Total 52,5% 47,5% 100 % (1363)
Cuando se presenta una tabla de porcentajes por fila (probabilidad condicional), es necesario poner el número de datos de la frecuencia
marginal de cada fila.
113
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variable% por columnas
Grupo de edadesSexo
TotalMasculino Femenino
0 a 4 años 19,7% 20,2% 20,0%
5 a 9 años 30,4% 28,1% 29,3%
10 a 14 años 28,6% 30,8% 29,6%
15 a 19 años 20,4% 20,4% 20,4%
20 a 24 años ,8% ,5% ,7%
Total 100 % (716) 100 % (647) 100% (1363)
Cuando se presenta una tabla de porcentajes por columnas (probabilidad condicional), es necesario poner el número de datos de la
frecuencia marginal de cada columna.
114
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variable% sobre el total
Grupo de edadesSexo Total
Masculino Femenino
0 a 4 años 10,3% 9,6% 20,0%
5 a 9 años 16,0% 13,4% 29,3%
10 a 14 años 15,0% 14,6% 29,6%
15 a 19 años 10,7% 9,7% 20,4%20 a 24 años ,4% ,2% ,7%Total 52,5% 47,5% 100 % (1363)Un porcentaje de la tabla sobre el total, no da mucha información sobre la distribución bivariada, igualmente en la celda total se debe mostrar cuál es
el N de la muestra o de la población.
20
115
Encuesta Educativa en Bajo Flores
Nivel Educativopor Concurrencia a la escuela
Va a la escuela TotalNo Si
Grupo de edad según
Nivel educativo
0 a 3 años 158 35 193
4 a 5 años 28 128 156
6 a 12 años 10 551 561
13 a 18 años 48 387 435
más de 18 años
3 16 19
Total 247 1117 1364
116
Encuesta Educativa en Bajo Flores
Edad de los niños según Nivel Educativopor Concurrencia (% filas)
Va a la escuelaTotal
No Si
Grupo de edad según
Nivel educativo
0 a 3 años 81,9% 18,1% 100% (193)
4 a 5 años 17,9% 82,1% 100% (156)
6 a 12 años 1,8% 98,2% 100% (561)
13 a 18 años 11,0% 89,0% 100% (435)
mas de 18 años 15,8% 84,2% 100% (19)
Total 18,1% 81,9% 100,0%
Pablo Salgado EMAIL: [email protected]
GRAFICOS
118
Presentación Gráfica de DatosRepresentación de actos numéricos por medio de un dibujo
esquemático que hace visible la relación o gradación que
guardan entre sí:
• Es la manera más usual de presentación de datos
• Retrato gráfico de información cuantitativa
• Provee de una mirada la idea general de los datos
• Más fáciles de interpretar
• Menos grado de detalle
119
GráficoEje y
Eje x
Abscisa
Ordenada
p
120
Utilidades1. Tener una primera impresión de los datos antes de comenzar el análisis
(explorar).
2. Elección de tests estadísticos a realizar.
3. Poder del “Test de la ojeada”.
4. Mostrar los valores que asumen los datos.
5. Detectar patrones.
6. Comparar distintas muestras, o comparar en el tiempo.
7. Evaluar la distribución de los datos.
21
Pablo Salgado EMAIL: [email protected]
Gráficos de Sectores
Es exclusivo para variable cualtitativa nominales
122
Distribución porcentual de sexoBase de datos de adultos sanos
N= 585
123
Gráfico de Sectores o Circular (EPH Corrientes)1,1%
,1%
,1%
,2%
34,2%
64,3%
Vivienda en villa
Sin fines habitación
Inquilinato
Vivienda en lugar de
Departamento
Casa
Esto no conviene!!
124
Gráfico de Sectores o Circular (EPH GBA)
1,5%
34,2%
64,3%
Otro
Departamento
Casa
125
Gráfico de Sectores o Circular (EPH GBA)
1,5%
Otros
70,4%
7,4%
7,4%
14,8%
Vivienda en villa
Sin fines habitacion
Inquilinato
Vivienda en lugar de
Se entiende? Otros (1,5%) se puedeGraficar a parte
126
Gráfico de Sectores o CircularEncuesta Anual de Hogares 2009
Ciudad de Buenos Aires
22
127
Que asco de gráfico!!
128
Está rereremal!!!
Índice de necesidad de tratamiento de caries en niños de 5 a 7 años
n:811
Es un desastre
130
Est
a bi
en?
Índice de necesidad de tratamiento de caries en niños de 5 a 7 años
131
Índice de necesidad de tratamiento de caries en niños de 5 a 7 años
O m
ejor
asi
?
132
Y e
ste?
???
Vam
os e
legí
uno
!!!
Índice de necesidad de tratamiento de caries en niños de 5 a 7 años
23
133
Pablo Salgado EMAIL: [email protected]
Gráficos de Barras
• Es exclusivo para variable cualitativas nominales y ordinales.
• También se puede usar para variables cuantitativas discretas con poco recorrido de la variable.
135
Diagrama de Barras Mejor para atributos no numéricos.
Datos Nominales.
Datos Ordinales (eje no arbitrario).
Altura proporcional al número de casos.
Barras del mismo ancho.
Distancias entre barras iguales.
Se puede utilizar frecuencias absolutas, relativas y
porcentuales.
Pablo Salgado EMAIL: [email protected]
Gráfico de Barras
Verticales
Variables cualitativas nominales
137
Gráfico de barras verticales con frecuencias absolutas
Base SIEMPRO 2001
138
Gráfico de barras verticales con Porcentajes
Base SIEMPRO 2001
24
139
Producciones Extendidas 1996/97Gráfico de barras verticales con frecuencias absolutas
Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca y Alimentación, SAGPyA, 2003.
140
Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca y Alimentación, SAGPyA, 2003.
Producciones Extendidas 1996/97Gráfico de barras verticales con %
Pablo Salgado EMAIL: [email protected]
Gráfico de Barras
Verticales
Variables cualitativas ordinales
142
• Gráfico de barras verticales para variables cualitativas ordinales.
• En el eje de las x (variables) hay que respetar el orden.
Ingreso promedio mensual de los ocupados de 10 años y más por máximo nivel educativo alcanzado. Ciudad de Buenos Aires. Año 2008
2.161
1.1891.383
1.898
3.189
0
500
1.000
1.500
2.000
2.500
3.000
3.500
Total Hasta primarioincompleto
Primario completo/secundarioincompleto
Secundariocompleto/ superior
incompleto
Superior completo ymás
Pes
os
Fuente: Dirección General de Estadística y Censos (Ministerio de Hacienda GCBA). EAH 2008.
144
Distribución porcentual del nivel de instrucción alcanzadoBase de datos de adultos sanos
N= 585
25
145
Distribución porcentual del indice de masa corporalBase de datos de adultos sanos
N= 585
146
n=1254
Porcentaje de pacientes con exceso de peso que atienden los profesionales de la salud
Pablo Salgado EMAIL: [email protected]
Gráfico de Barras Verticales
Variables cuantitativas discretas
148
EPH: Provincia de Corrientes
• Grafico de barras para variables cuantitativas discretas.
• No están los datos agrupados.
Cantidad de personas en el hogar
1614121110987654321
Por
cent
aje
20
18
16
14
12
10
8
6
4
2
0
149
EPH: Provincia de Corrientes
Cantidad de habitaciones que tiene en el hogar
1187654321
Por
cent
aje
40
30
20
10
0
150
Índice de necesidad de tratamiento de caries en niños de 5 a 7 años
26
151
Gráfico de Barras
Horizontales
152
País de Origen de los que respondieron la encuestan=836
Indicadores por Región de base poblacional: Tasa de cesáreas
24,5%
24,8%
26,9%
27,5%
27,8%
30,0%
31,1%
37,3%
0% 5% 10% 15% 20% 25% 30% 35% 40%
PBA
CABA
NEA
Total País
NOA
Centro
Cuyo
Patagonia
Brecha 1,5Rango: 12,8%
154
Estimación estadística obtenida de las oficinas locales del SENASA año 2002.
Gráfico de barras horizontales para variables cualitativas nominales ordenados de mayor a menor frecuencia (si la variable es ordinal, no se puede cambiar el orden de las categorías de la variables).
155
Pablo Salgado EMAIL: [email protected]
Distribuciones Bivariadas
Gráfico de Barras Adyacentes
156
27
157
Diagrama de barras adyacentes. Es la representación gráfica de una tabla de contingencia. Este tipo de grafico permite visualizar
si hay relación entre variables.
158
Evolución de la soja durante el quinquenio 1996/97 – 2001/02 respecto a otras producciones extensivas.
Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca yAlimentación, SAGPyA, 2003.
159
Evolución de la soja durante el quinquenio 1996/97 – 2001/02 respecto a otras producciones extensivas.
Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca yAlimentación, SAGPyA, 2003.
160
Distribución porcentual del indice de masa corporal por sexoBase de datos de adultos sanos
N= 585
161
Distribución porcentual del indice de masa corporal por sexoBase de datos de adultos sanos
N= 585
162
Porcentaje de pacientes atendidos con exceso de peso por Especialidad Médica
n=1254
28
Pablo Salgado EMAIL: [email protected]
Distribuciones Bivariadas
Gráfico de Barras Superpuestas
164
Gráfico de Barras Superpuestas
Grupo etáreo según Nivel educativo
mas de 18 años
13 a 18 años
6 a 12 años
4 a 5 años
0 a 3 años
80
70
60
50
40
30
20
10
0
Va a la escuela
Si
No
165
Gráfico de Barras Superpuestas Al 100%Compara como contribuye cada categoría al total
166
Evolución de la soja durante el quinquenio 1996/97 – 2001/02 respecto a otras producciones extensivas.
167
Gráfico de Barras Superpuestas Al 100%Compara como contribuye cada categoría al total
Tasa neta de escolarización de la población de 13 a 17 años. Nivel de enseñanza Secundario, según zona. Ciudad de Buenos Aires. Año 2009.
Fuente: Dirección General de Estadística y Censos (Ministerio de Hacienda GCBA). EAH 2009.
8
4
13
2
56
7
9
10
14
15
13
11
12
Zona A (norte)
Zona B (este)
Zona C (sur)
Zona D (oeste)
Zona E (centro)
86,0
95,4
82,8
73,8
84,0
88,2
50
60
70
80
90
100
Total A (norte) B (este) C (sur) D (oeste) E (centro)
29
169
En general, los datos nominales se describen en términos de porcentajes o proporciones (frecuencias relativas).
Las tablas de contingencia, gráficos circulares y gráficas de barras son las mas comunes para mostrar esta clase de información.
Las mismas clases de cuadros y gráficas que se utilizan pare exhibir datos nominales se usan también con datos ordinales, salvo el diagrama circular que podríamos decir que es exclusivo de los datos nominales.
Pablo Salgado EMAIL: [email protected]
Gráficos para Variables
Continuas
170
171
HistogramasSe usa para distribuciones de frecuencias de variables
cuantitativas discretas o continuas.
Eje Horizontal: Límites de cada intervalo (en general de igual tamaño)
Eje Vertical: frecuencia absoluta, relativa o porcentual; comenzando en el en origen (cero).
La frecuencia asociada a cada intervalo está dada por el área de la barra.
Area total: 100% ó 1
172
Histograma con 25 intervalos de clase
Sujetos Adultos sanos:
173
Histograma con 9 intervalos de clase
Sujetos Adultos sanos:
174
EPH Corrientes
Monto de ingreso total familiar
5500
5250
5000
4750
4500
4250
4000
3750
3500
3250
3000
2750
2500
2250
2000
1750
1500
1250
1000
750
500
250
0
35000
30000
25000
20000
15000
10000
5000
0
30
175
Minimental Test
176
Distribución de edades de los encuestados
n=1254
177
Distribución de edades de los encuestados
n=1254
Pablo Salgado EMAIL: [email protected]
Gráficos bivariados:
para un variable cualitativa y una variables cuantitativa continuas
179
Pirámide de Población
180
Box-Plots (Diagrama de Cajas) Variables Discretas/Contínuas
Muy útiles para tener una idea general de todos los
datos
Simetría
Diagnóstico de distribución normal vs. no normal
Comparar distribuciones en varios grupos
31
181
BOXPLOT: Variables Continuas/Discretas
Percentilo 25
Percentilo 75
Mediana
=Media
Grupo A Grupo B
Percentilo 25
Percentilo 75
=Media
Mediana
Valores Extremos
Valor atípicos
Valores adyacentes
La caja contieneEl 50% de los
valores centrales
182
Box-Plots (Construcción)• Ordenar los datos y obtener Max, Min, Q1, Q2 y Q3
• Dibujar un rectángulo con Q1 y Q3.
• Dibujar la mediana (Q2)
• Calcular los límites inferior y superior:• Li = Q1 - 1,5 (Q3 - Q1)
• Ls= Q3 + 1,5 (Q3 - Q1)
• Considerar como atípicos los valores exteriores al intervalo
• Dibujar una línea desde los extremos del rectángulo hasta los valores límites.
• Identificar los datos fuera del intervalo como atípicos
183
n=1254
Diagrama de cajas: Edad por Género
184
Diagrama de Cajas:Variable: perímetro de cintura
n= 585
185
Índice de necesidad de tratamiento de caries en niños de 5 a 7 años por escuela
186
Barras de errores Variables Continuas.
Muy útiles para comparar y graficar diferencias entre
variables teniendo en cuenta el promedio y alguna medida
de dispersión (desvió estándar, error estándar o intervalo de
confianza).
Como condición las variables deben ser simétricas y
aproximarse a la distribución normal.
Comparar distribuciones en varios grupos.
32
187
Diagrama de Barras de Errores
648716N =
Sexo
FemeninoMasculino
95
% I
C E
da
d
10,2
10,0
9,8
9,6
9,4
9,2
9,0
Límite superior del IC al 95%
Límite inferior del IC al 95%
Promedio
188
189
Pablo Salgado EMAIL: [email protected]
Algunos consideraciones entre:
Diagramas de caja
Barra de errores
190
191
El diagrama de barra de errores, utiliza para graficar la tendencia central y la dispersión medidas de posición (mediana, cuartiles y desvíos intercuartiles), lo que permite apreciar la simetría de la distribución de la variable y los valores atípicos y extremos.
En los gráficos de barra de errores, se utiliza el promedio y los derivados del desvío estándar (error estándar). Si la variable es asimétrica este gráfico no lo muestra como tampoco los valores atípicos y extremos. Se recomienda utilizarlos en caso que se tenga la certeza de que la variables con la que estamos trabajando tenga una distribución cercana a la Distribución Normal o de Gauss.
192
Histograma y Diagrama de cajas: Variable Asimétrica no gausiana
33
193
Barra de errores y Diagrama de cajas: Variable muy Asimétrica no gausiana
Diagramade cajas
Barra de errores con distintos intervalos:Intervalo de confianza al 95%, un y dos desvíos estándar
194
195
Distribución z score
Percentiles
196
197
Diagrama de cajas
198
Distribución Normal
34
199
Minimental Test
4254N =
NormalOlvido Benigno
Min
ime
nta
l Te
st
31
30
29
28
27
26
25
1938
1
200
Mediana
25%-75%
Rango Hombre Mujer
Género del empleado
10000
20000
30000
40000
50000
60000
70000
80000
90000
SA
LA
RIO
Mean
Mean±SE
Mean±SD Hombre Mujer
Género del empleado
10000
20000
30000
40000
50000
60000
70000
80000
90000
SA
LA
RIO
201
202
Pablo Salgado EMAIL: [email protected]
Gráficos para bivariado
Variables Cuantitativas Continuas
204
35
205
19,0
18,3
17,1
18,2
19,0
15,2
16,0
15,5
16,416,0 16,0
13,5
14,4 14,314,0
12,5
14,3
11,8
12,6
10,3
9,0 9,2
9,9 10,1
8,5
7,8 7,9 7,9
7,3
8,3
6,7
4
6
8
10
12
14
16
18
20
TMI DGEyC
Tasa de mortalidad infantil anual (muertos por mil nacidos). Ciudad de Buenos Aires. Año 2010
206
4
6
8
10
12
14
16
18
20
1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010
TMI a
nual
Año
Curva de regresión ajustada
TMI DGEyC
Tasa de mortalidad infantil anual (muertos por mil nacidos). Ciudad de Buenos Aires. Año 2010
207
Peso = - 58 + 80 x TallaR cuadrado = 0,263
208
IMC = 3,4 + 0,26 x PCR cuadrado = 0,55
209
Resumen sobre estadísticos Tendencia Central:
Indican valores con respecto a los que los datos parecen agruparse: Media, mediana y moda
Posición:
Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos: Cuantiles, percentiles, cuartiles, deciles,...
Dispersión:
Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización: Desviación típica, coeficiente de variación, rango, varianza
Forma: Asimetría y Curtosis
210
Estadígrafos
de Tendencia Central
de Posición
de Dispersión
De Formas
Especificas
36
211 212
MEDIDAS DE TENDENCIA CENTRAL
Una descripción que simplifica y que representa
apropiadamente a la variable, o al conjunto de
datos recolectados de una variable, son las
medidas de tendencia central como el promedio,
la mediana y la moda.
213
La media o promedio es una estimación del valorcentral, en torno al cual fluctúan los valores hallados.
Es importante marcar que la media contienesolamente una parte de la información que los datosproporcionan. No da ninguna indicación sobre lavariabilidad de las mediciones, y esta es unainformación esencial sobre todo en el momento en quees necesario comparar por ejemplo si dos o másmuestras pertenecen a la misma población.
214
Promedio o Media aritmética
Población:
Muestra:
215
Mediana Corresponde a la observación central; es decir es el valor de la
variable que supera a la mitad de las observaciones (o es menor a la otra mitad).
En variables cualitativas nominales no se puede utilizar.
En variables cualitativas ordinales es la categoría de la variable que contiene al 50 % de la frecuencia porcentual acumulada.
216
Altura mediana
37
217
Altura mediana
218
La mediana de un conjunto de números naturales
ordenados en magnitud es:
El valor central si el conjunto es impar
La media de los dos valores centrales si el
conjunto es par.
Para datos cuantitativos discretos:
219
Ejemplo con N impar:
El conjunto de números
tiene mediana = 6.
Ejemplo con N par:
El conjunto de números 5,5,5,9,11,12,15, 18, 19 y 21
220
Modo o ModaEs el valor o categoría de la variable que se presentan
con mayor frecuencia.
Para variables cualitativas (nominales u ordinales),
la moda es la categoría de mayor frecuencia.
Para variables cuantitativas en general es el punto
medio del intervalo de clases de mayor frecuencia.
221
La moda puede no existir, e incluso no ser única en caso de existir.
Es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa de
realizar ningún cálculo.
Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que
tengan la misma frecuencia, en cuyo caso tendremos una distribución bimodal o polimodal según el caso.
222
Ejemplo 1:El conjunto 2,2,5,7,9,9,9,10,10,11,12 y 18
Moda=9Ejemplo 2:
El conjunto 3,5,8,10,12,15 y 16no tiene moda.Ejemplo 3:
Conjunto 2,3,4,4,4,5,5,7,7,7 y 9tiene dos modas, 4 y 7 (bimodal).
38
223
Pablo Salgado EMAIL: [email protected]
Posiciones relativas de la media, la mediana y la moda
para distribuciones de frecuencias asimétricas
225
Cuando la distribución de frecuencias de la variable es simétrica, coinciden ( o son muy parecidas) las medidas de tendencia central.
Cuando hay una asimetría en la distribución de las frecuencias, indica que hay valores extremos hacia una dirección de la variable y una acumulación de datos en la otra dirección de la variable.
El promedio esta influenciado por los valores extremos, en cambio la mediana no y la moda se encontrará en un extremo de la distribución (datos acumulados).
Siendo distintos los valores de las tres medidas de posición.
Pablo Salgado EMAIL: [email protected]
Ejemplo de una distribución de frecuencias asimétricas
227
Monto de ingreso total familiar CBA y Conurbano BA
1375
0 -
1450
0
1300
0 -
1375
0
1225
0 -
1300
0
1150
0 -
1225
0
1075
0 -
1150
0
1000
0 -
1075
0
9250
-10
000
8500
-92
50
7750
-85
00
7000
-77
50
6250
-70
00
5500
-62
50
4750
-55
00
4000
-47
50
3250
-40
00
2500
-32
50
1750
-25
00
1000
-17
50
250
-10
00
700
600
500
400
300
200
100
0
EstadísticosMedia: $ 1212Mediana: $ 800Moda: $ 600
n=1159
228
Monto de ingreso total familiar CBA y Conurbano BA
14000
12000
10000
8000
6000
4000
2000
0
n=1159
39
229
Monto de ingreso total familiar CBA y Conurbano BA
Pablo Salgado EMAIL: [email protected]
Ejemplo de una distribución de frecuencias simétricas
231
Edad del Encuestado
77 -
83
72 -
77
66 -
72
61 -
66
56 -
61
50 -
56
45 -
50
40 -
45
34 -
40
29 -
34
24 -
29
18 -
24
13 -
18
8 -
13
Fre
cuen
cia
100
80
60
40
20
0
EstadísticosMedia: 37,5Mediana: 37,0Moda: 38,0n= 507
232
507N =
Edad del Encuestado
Eda
d
90
80
70
60
50
40
30
20
10
0
233
Edad del Encuestado
234
Medidas de posición Las medidas de posición son “índices diseñados para
revelar la situación de una puntuación con respecto a
un grupo, utilizando a éste como marco de referencia”.
Indican para cierto puntaje de la variable qué cantidad
de valores están por debajo de él (cuantiles o fractiles).
40
235
Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada
Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
236
Las medidas de posición dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra.
Así en psicología los resultados de los Test o pruebas que realizan a un determinado individuo, se clasifican según el percentil correspondiente a la puntuación obtenida por el sujeto.
237
Si un conjunto de datos ordenados (por ejemplo, de
menor a mayor) es dividido en cuatro partes iguales,
obtenemos la medida de posición denominada cuartil;
si dividimos a ese mismo conjunto en 10 partes
iguales, obtenemos los deciles; y si se divide la
distribución en 100 secciones iguales, obtenemos 99
valores llamados percentiles
238
Hay diferentes tipos de cuantiles, pero en
general son valores que dejan por debajo
de él una cierta fracción de los datos
ordenados en forma creciente y el resto por
encima.
239
Cuando la fracción es la mitad, se trata de la mediana.
- Cuartiles: Dividen a la distribución en 4 partes iguales. El primer cuartil Q1 deja el 25% de los valores por debajo. El segundo cuartil es igual a la mediana y el tercero Q3 deja el 75%.
- Deciles: Dividen a la distribución en 10 partes iguales. El primer decil D1 deja el 10% de los valores por debajo y el resto por encima. El quinto decil es la mediana.
- Percentiles: Dividen a la distribución en 100 partes del total. Así, el percentil veinticuatro ( P24 ) deja el 24% de los valores por debajo. El percentil cincuenta es la mediana, o el quinto decil.
240
Variable cuantitativa contínua
41
Pablo Salgado EMAIL: [email protected]
Ejemplo: aplicación en el crecimiento de niños
242
243 244
245 246
42
247 248
Percentiles
5 19,00
10 21,80
25 28,00
50 37,00
75 46,00
90 53,00
95 59,00
Edad del Encuestado
249
Ejemplos El 5% de los recién nacidos tiene un peso demasiado bajo.
¿Qué peso se considera “demasiado bajo”? Percentil 5 o cuantil 0,05
¿Qué peso es superado sólo por el 25% de los individuos? Percentil 75
El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales? Entre el percentil 5 y el 95
¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población? Entre el cuartil 1º y 3º
250
¿Qué peso no llega a alcanzar el 25% de los individuos? Primer cuartil = percentil 25 = 60 Kg.
¿Qué peso es superado por el 25% de los individuos? Tercer cuartil= percentil 75= 80 kg.
¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? Entre el primer y tercer cuartil = entre 60 y 80 kg.
Observar que indica cómo de dispersos están los individuos que ocupan la “parte central” de la muestra. Ver más adelante rango intercuartílico.
Los diagramas de caja (‘boxplot’) sintetizan esta información (y algo más).
Ejemplo
50%
251
Medidas de Dispersión o Variabilidad Las medidas de dispersión son índices que establecen el
grado en que se parecen o se diferencian entre sí un conjunto
de datos.
Una distribución de frecuencias será homogénea o poco
variable si los datos difieren poco entre sí y, por tanto, se
concentran en torno a su promedio. Será heterogénea o muy
variable si los datos se dispersan mucho con respecto al
promedio.
252
¿Por qué estudiar la dispersión?
Es posible evaluar la confiabilidad del promedio que se está
utilizando. Si los valores se concentran en torno a la media,
esta última se considera representativa de los datos. Por el
contrario, una dispersión grande indica que la media no es
confiable.
Una medida de dispersión permite apreciar cuán dispersas
son dos o más distribuciones.
43
253
Por ejemplo, supóngase que un nuevo modelo de
computadora se ensambla en dos plantas de una
fábrica: la Planta A y B. La media aritmética de la
producción diaria en ambas plantas es 50. Con base en
las dos medias se podrá llegar a la conclusión de que
las distribuciones de las producciones diarias son
idénticas.
254
Pero si las dispersiones varían de una muestra a
la otra, esta conclusión no es correcta (por
ejemplo, si la producción en la Planta A varía de
48 a 52 ensambles por día, mientras que en la
Planta B varía de 40 a 60, diremos que en esta
segunda Planta la producción es más errática).
255
Las medidas de tendencia central tratan de describir un valor
representativo o típico de los dato. Otro aspecto que hay que tener
en cuenta es como se distribuyen los datos alrededor de la media.
Por ejemplo decir que el promedio del colesterol total es 5,81 nos
indica el valor típico de los datos. Es una información útil, pero
para lograr una idea mejor de la distribución de los valores de
estos pacientes se requiere conocer algo acerca de la dispersión
de datos. ¿Qué podemos decir si un paciente tiene 5,92 o 5,25 ?
256
• Las medidas para evaluar la dispersión son las siguientes:
1. Amplitud Total o extensión (recorrido o rango)
2. Desviación semiintercuartil
3. Desviación típica o Standard
4. Variancia (o varianza)
5. Coeficiente de variación
257
MEDIDAS QUE CALCULAN LA DISPERSION
RANGO: Es la diferencia entre la observación más grande y la menor. Por
ejemplo el valor más pequeño de colesterol total es 3,8 y el más alto es
8,8.
Por lo tanto el Rango:
RM = x máximo - x mínimoRM = 8,8 - 3,8 = 5
Muchos autores dan los valores mínimos y máximos en lugar del rango y
en algunos casos estos valores son de información más útil desde el
punto de vista descriptivo.
258
Amplitud Total (o rango)El rango es la medida de dispersión más sencilla.
Es la diferencia entre el valor más alto y el más bajo de un conjunto de datos.
Rango = valor más alto – valor más bajo
Consideremos los siguientes grupos de calificaciones en tres cursos diferentes:
A: 6, 6, 6, 6, 6, 6
B: 5, 6, 7, 8, 7, 3
C: 2, 3, 4, 7, 9, 11
Los tres grupos poseen la misma media aritmética, pero mientras en el curso A no hay variaciones (todos los alumnos obtuvieron un 6), el curso B (rango = 5) y C (rango = 9) ha mostrado importantes variaciones, siendo este último el de mayor variabilidad.
44
259
Varianza (variancia)La varianza es el promedio de las desviaciones cuadráticas con
respecto a la media. Es un índice basado en la idea de que, al
elevar al cuadrado las distancias con respecto a la media antes
de hallar su promedio, no suman cero. Además los cuadrados
son siempre positivos.
Para los datos sin agrupar, la fórmula es:
Para datos agrupados:
260
Desviación típica o estándar • Resulta difícil interpretar la varianza para un
solo conjunto de observaciones.
• La variancia de 106.8 para las edades de
los pacientes no está en términos de años,
sino más bien en años al cuadrado.
• Por ello resulta útil retomar las unidades de
medición originales.
261
Desviación típica o estándar Esto es lo que hace la desviación estándar, al calcular la
raíz cuadrada de la varianza. Así, se establece con mayor
precisión una “separación promedio” de las distancias de
cada uno de los valores de la variable a la media.
Es un mejor descriptor de la variabilidad y siempre es
positiva. En el ejemplo anterior, la raíz cuadrada de 106.8
años2 es de 10.3 años.
262
Coeficiente de Variación• El coeficiente de variación sirve para comparar la variabilidad
de grupos cuya media es claramente distinta. Se relativiza la
desviación típica con respecto a la media y se expresa como un
porcentaje.
• Por ejemplo, un grupo de niños de 7 años mide una talla media
= 1.3 con una s = 0.05. Por otro lado, sabemos que su peso
medio es = 25 con una s = 2 Kg. La pregunta que nos hacemos
es: ¿qué es más variable: el peso o la talla?
263
Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
También se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso
que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0ºC ≠ 0ºF
Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso).
264
Mientras en la Ciencias Exactas, un sistema de medición con
coeficientes superiores al 10% es inaceptable, en Clínica,
donde las variabilidades inherentes al material de trabajo son
mucho más grandes, no se puede ser tan estricto.
Por eso se sugiere usar :
25% < CV% < 50% poco aceptables
10% < CV% < 25% aceptable
CV% < 10% muy aceptable
45
265
Medidas de asimetría Las medidas de asimetría determinan si las frecuencias se
concentran más hacia los valores bajos (asimetría positiva) o
hacia los valores altos de la variable (asimetría negativa). Si
una distribución de frecuencias es simétrica, el sesgo es nulo
(es decir, igual a 0). En las distribuciones simétricas, el
promedio, la mediana y la moda coinciden (caen en el mismo
punto de la distribución). Pero, casi todas las distribuciones
tomadas de datos reales tiene algún grado de asimetría.
266
Lo que esperamos, para tratar a una distribución como simétrica, es que el grado de asimetría sea lo más cercano a 0 posible.
El coeficiente de asimetría (C.A.) se encuentra generalmente entre –3 y +3.
La fórmula para calcular el sesgo de una distribución es:
C.A. = 3 * (X - Mediana)
Desvío estándar
267 268
269
Asimetría o Sesgo
Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.
En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide
La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.
La media tiende a desplazarse hacia las valores extremos (colas).
Las discrepancias entre las medidas de centralización son indicación de asimetría.
270
Estadísticos para detectar asimetría Hay diferentes estadísticos que sirven para detectar
asimetría.
Basado en diferencia entre estadísticos de tendencia central.
Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.
Basados en desviaciones con signo respecto a la media. En este se basa SPSS. No lo calcularemos
manualmente en este curso.
En función del signo del estadístico diremos que la asimetría es positiva o negativa.
Distribución simétrica asimetría nula.
La asimetría es adimensional.
46
271
Curtosis La curtosis se refiere a la altura o aplanamiento del polígono de
frecuencia.
Cuando la curva es muy puntiaguda, se la denomina leptocúrtica, si es muy chata, platicúrtica, y si es normal, mesocúrtica.
La asimetría y la curtosis son medidas independientes, por lo que una distribución puede ser simétrica y, por ejemplo, leptocúrtica. O, por el contrario, ser asimétrica y mesocúrtica.
De cualquier modo, si la distribución de frecuencias es cercana a la normal, el sesgo deberá tender a 0 y la curva deberá tender a ser mesocúrtica.
272
273 274
Apuntamiento o curtosis
Los gráficos poseen la misma media
y desviación típica, pero con
diferente grado de apuntamiento.
En el curso serán de especial interés
las mesocúrticas y simétricas
(parecidas a la normal).
• La curtosis nos indica el grado de apuntamiento aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional.
Platicúrtica: curtosis < 0
Mesocúrtica: curtosis = 0
Leptocúrtica: curtosis > 0
275
• Esta distribución es frecuentemente utilizada en las
aplicaciones estadísticas.
• Su propio nombre indica su extendida utilización,
justificada por la frecuencia o normalidad con la
que ciertos fenómenos tienden a parecerse en su
comportamiento a esta distribución.
Distribución Normal276
• La importancia de la distribución normal se debe principalmente a que hay muchas
variables asociadas a fenómenos naturales que siguen el modelo de la normal:
• Caracteres morfológicos de individuos (personas, animales, plantas,.. de una
especie, peje. tallas, pesos, envergaduras, diámetros, perímetros,... )
• Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o
de una misma cantidad de abono.
• Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo
grupo de individuos, puntuaciones de examen.
• Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a
un medio,...
• Errores cometidos al medir ciertas magnitudes.
• Valores estadísticos muestrales, por ejemplo : la media.
47
277
MediaMedia - DS Media + DSMedia – 2 DS Media + 2 DS
Campana de Gauss
Pablo Salgado EMAIL: [email protected]
Proporciones y porcentajes
Razones
Índices y Tasas
279
Una proporción es el número de
observaciones con una característica
dada (cualidad) dividido entre el
número total de observaciones.
Un porcentaje es una proporción
multiplicada por 100
280
Una razón es el número de observaciones en un grupo dado con
una característica dada dividido entre el número de
observaciones sin la característica dada (como no haber
muerto):
Una razón se define siempre, como una parte dividida entre otra
parte. Por ejemplo, entre pacientes que recibieran una
medicación, la razón de los que murieron a los que sobrevivieron
es:
muertos / vivos
281
Índices o Tasas son semejantes a las
proporciones excepto porque se usa un
multiplicador (por ejemplo, 1.000, 10.000 o
100.000) y se calculan por un espacio
especifico de tiempo.