Upload
vuque
View
219
Download
0
Embed Size (px)
Citation preview
Tema 2: Análisis Descriptivo de Conjuntos de DatosEstadística. 4o Curso
Licenciatura en Ciencias Ambientales
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 1 / 28
Índice
1 Objetivos de la Estadística Descriptiva
2 Conceptos Básicos
3 Métodos para la organización de conjuntos de datos
4 Métodos para la representación gráfica de conjuntos de datos
5 Métodos para el resumen de conjuntos de datos
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 2 / 28
Objetivos de la Estadística Descriptiva
Estudia los procedimientos apropiados para organizar, representar gráficamente yresumir convenientemente la información contenida en un conjunto de datos.
Es la parte de la Estadística más conocida por ser muy frecuentemente utilizada en losmedios de comunicación y en la vida cotidiana.
Los procedimientos que proporciona la Estadística Descriptiva sólo permiten obtenerconclusiones para los conjuntos de datos recogidos y no para las poblaciones de lasque han sido extraídos.
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 3 / 28
Conceptos Básicos
Experimentos estadísticosUna vez seleccionada la muestra de la población, medimos en las n unidadesexperimentales la variable o variables que pretendemos estudiar.Si X es una de estas variables obtendremos que x1, . . . , xn son los valores que toma lavariable X en los individuos 1, 2, . . . , n, respectivamente. Se denomina a su vezmuestra de la variable X.
Ejemplo de tabla de datosX Y Z W . . .
1 x1 y1 z1 w1 . . .2 x2 y2 z2 w2 . . .3 x3 y3 z3 w3 . . .4 x4 y4 z4 w4 . . ....
......
......
n xn yn zn wn . . .
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 4 / 28
Métodos para la organización de conjuntos de datos
Tablas de frecuencias: Variables cualitativasn (tamaño de la muestra) frecuencia total.M1, . . . , Mk modalidades distintas de la variable sobre la muestra.
ni ≡ frecuencia absoluta de Mi; es el número de veces que se repite la modalidadMi (n1 + · · ·+ nk = n )
fi ≡ frecuencia relativa de la modalidad Mi; fi =ni
n(f1 + · · ·+ fk = 1)
Mod. ni fi
M1 n1 f1
M2 n2 f2
......
...Mk nk fk
n 1
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 5 / 28
Métodos para la organización de conjuntos de datos
Ejemplo 1En una zona contaminada se tomaron una serie de muestras de aire y se midieron losniveles de CO (alto, medio, bajo), obteniéndose los siguientes resultados:
dato 1 2 3 4 5 6 7 8 9 10CO A A M B A M B B A Mdato 11 12 13 14 15 16 17 18 19 20CO B A A M A A B M M B
Mod. ni fi
Alto 8 0.4Medio 6 0.3Bajo 6 0.3
20 1
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 6 / 28
Métodos para la organización de conjuntos de datos
Tablas de frecuencias: Variables cuantitativas discretasn (tamaño de la muestra) frecuencia total.x1, . . . , xk valores distintos de la variable sobre la muestra. (x1 < · · · < xn)
ni ≡ frecuencia absoluta y fi ≡ frecuencia relativa; se definen del mismomodo que para las variables cualitativas.Ni ≡ frecuencia absoluta acumulada de xi; Ni = n1 + · · ·+ ni (Nk = n)Fi ≡ frecuencia relativa acumulada de xi; Fi = f1 + · · ·+ fi (Fk = n)
valor ni fi Ni Fi
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
......
......
...xk nk fk Nk = n Fk = 1
n 1
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 7 / 28
Métodos para la organización de conjuntos de datos
Ejemplo 2Se desea saber el riesgo de extinción de la cigüeña en una cierta región. Se eligen endicha región 25 nidos mediante un MAS, contando los huevos que hay en cada nido.Resulta que 2 de los nidos no tenían huevos, 3 tenían un huevo, 4 tenían 2 huevos, 8tenían 3 huevos, 5 tenían 4 huevos y el resto 5 huevos.
valor ni fi Ni Fi
0 2 0.08 2 0.081 3 0.12 5 0.22 4 0.16 9 0.363 8 0.32 17 0.684 5 0.2 22 0.885 3 0.12 25 1
25 1
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 8 / 28
Métodos para la organización de conjuntos de datos
Tablas de frecuencias: Variables cuantitativas continuasAntes de construir la tabla de frecuencias hay que agrupar los datos de estas variablesen intervalos. La forma de hacerlo es la siguiente:
Determinar valores máximo (Vmax) y mínimo (Vmin) de los datos.Determinar el número (k) de intervalos a construir, que deben ser todos de lamisma amplitud.
Determinar la amplitud de los intervalos: a ≈ Vmax − Vmin
k
A veces conviene redondear esta amplitud pero NUNCA DEBEMOS PERDERNINGÚN DATO EN EL PROCESO.
¿Cómo determinar el número de intervalos?Categorías prefijadas en estudios anteriores.A criterio del investigador.Mediante la Fórmula de Sturges (k ≈ 1 + 3.322 log10 n) u otra similar.
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 9 / 28
Métodos para la organización de conjuntos de datos
Ejemplo 3En la siguiente tabla se muestran los niveles de colinesterasa de 34 agricultoresexpuestos a insecticidas agrícolas:
10.6 12.2 11.8 12.5 10.8 12.7 11.1 16.5 11.4 9.2 15.0 9.311.5 10.3 8.6 9.9 12.4 8.5 11.9 9.1 10.1 11.6 7.8 12.414.9 11.3 11.1 12.5 12.3 10.2 12.5 9.7 12.3 12.0
Vmin = 7.8 , Vmax = 16.5 , k ≈ 1 + 3.322 log10 34 = 6.08 ≈ 6
a ≈ 16.5− 7.86
= 1.45(≈ 1.5)
Sin redondear:[7.8, 9.25], (9.25, 10.7], (10.7, 12.15], (12.15, 13.6], (13.6, 15.05], (15.05, 16.5]Redondeando:[7.5, 9], (9, 10.5], (10.5, 12], (12, 13.5], (13.5, 15], (15, 16.5]
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 10 / 28
Métodos para la organización de conjuntos de datos
Tablas de frecuencias: variables cuantitativas continuasI1 = [a0, a1], I2 = (a1, a2], . . . , Ik = (ak−1, ak] intervalos en los que se han agrupadolos datos.
ni ≡ frecuencia absoluta del intervalo Ii; es el número de valores que pertenecenal intervalo Ii.
fi ≡ frecuencia relativa del intervalo Ii; fi =ni
nNi ≡ frecuencia absoluta acumulada del intervalo Ii; Ni = n1 + · · ·+ ni
Fi ≡ frecuencia relativa acumulada del intervalo Ii; Fi = f1 + · · ·+ fi
intervalo ni fi Ni Fi
I1 n1 f1 N1 F1
I2 n2 f2 N2 F2
......
......
...Ik nk fk Nk = n Fk = 1
n 1
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 11 / 28
Métodos para la organización de conjuntos de datos
Ejemplo 3 (continuación)Tabla de frecuencias para los datos de los niveles de colinesterasa de 34 agricultoresexpuestos a insecticidas agrícolas:
intervalo ni fi Ni Fi
[7.5, 9] 3 0.088 3 0.088
(9, 10.5] 8 0.235 11 0.323
(10.5, 12] 11 0.324 22 0.647
(12, 13.5] 9 0.265 31 0.911
(13.5, 15] 2 0.059 33 0.971
(15, 16.5] 1 0.029 34 134 1
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 12 / 28
Métodos para la representación gráfica de conjuntos dedatos
Variables cualitativas: diagrama de sectoresSe calculan frecuencias relativas (fi).A la modalidad Mi se le asigna un ángulo de fi · 360o.No es conveniente que haya un número excesivo de modalidades.
Ejemplo 1 (continuación)
Mod. ni fi gradosAlto 8 0.4 144
Medio 6 0.3 108Bajo 6 0.3 108
20 1
Alto
Bajo
Medio
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 13 / 28
Métodos para la representación gráfica de conjuntos dedatos
Variables cualitativas: diagrama de barrasEsta representación consiste en construir tantos rectángulos o barras comomodalidades presente el carácter bajo estudio. La altura que alcanza cada barra puedeser igual a la frecuencia absoluta o bien a la frecuencia relativa de la modalidad a laque corresponde dicha barra.
Ejemplo 1 (continuación)
Mod. ni fi
Alto 8 0.4Medio 6 0.3Bajo 6 0.3
20 1Alto Bajo Medio
02
46
8
Alto Bajo Medio
0.0
0.1
0.2
0.3
0.4
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 14 / 28
Métodos para la representación gráfica de conjuntos dedatos
Variables cuantitativas discretas: polígono de frecuenciasSe colocan los valores ordenados de menor a mayor en el eje horizontal. A cada valorde la variable se le asocia un punto con la altura correspondiente a su frecuenciaabsoluta o bien a su frecuencia relativa. Los puntos se conectan mediante segmentos.Este polígono puede representarse de forma superpuesta a un diagrama de barras.
Ejemplo 2 (continuación)
valor ni fi
0 2 0.081 3 0.122 4 0.163 8 0.324 5 0.25 3 0.12
25 1 0 1 2 3 4 5
02
46
8
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 15 / 28
Métodos para la representación gráfica de conjuntos dedatos
Variables cuantitativas continuas: histogramaPara construir el histograma partimos de la tabla de frecuencias de los datos.Dividimos el eje horizontal en los intervalos en que hemos agrupado los datos.Sobre cada intervalo construiremos un rectángulo. Para la altura de estos rectángulostenemos tres opciones:
Las frecuencias absolutas.Las frecuencias relativas.Se construyen rectángulos cuyas áreas sean las frecuencias relativas. Si hi es laaltura del rectángulo que hay sobre el intervalo Ii y a es la amplitud de todos losintervalos
fi = hi · a ⇒ hi =fia
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 16 / 28
Métodos para la representación gráfica de conjuntos dedatos
Ejemplo 3 (continuación)
intervalo ni fi Ni Fi[7.5, 9] 3 0.088 3 0.088
(9, 10.5] 8 0.235 11 0.323
(10.5, 12] 11 0.324 22 0.647
(12, 13.5] 9 0.265 31 0.911
(13.5, 15] 2 0.059 33 0.971
(15, 16.5] 1 0.029 34 134 1 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 17 / 28
Métodos para el resumen de conjuntos de datos
¡¡¡Advertencia!!!
SÓLO PARA VARIABLES CUANTITATIVAS DISCRETAS Y CONTINUAS SINAGRUPAR
Medidas de centralización: moda y mediaLa moda es el dato más repetido. Puede haber más de una.
La media (x̄) es el valor central en el sentido aritmético. Viene a ser el “centro degravedad” de los datos.
x̄ =x1 + · · ·+ xn
nSi la variable es discreta y los datos están agrupados en una tabla de frecuencias
x̄ =x1n1 + · · ·+ xknk
n= x1f1 + · · ·+ xkfk
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 18 / 28
4. Medidas de síntesis de la información
Medidas de centralización: medianaLa mediana (x̃) es un valor que deja la mitad de los datos a su izquierda y la otramitad a su derecha. Ocupa la posición central en el sentido del orden.Para calcularla hay que ordenar los datos de menor a mayor y entonces:
Si n impar, x̃ ≡ dato que ocupa la posiciónn + 1
2
Si n par, x̃ ≡ punto medio de los datos que ocupan las posicionesn2
yn2
+ 1
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 19 / 28
Métodos para el resumen de conjuntos de datos
Ejemplo 2 (continuación)Si en una variable discreta nos dan los datos agrupados en una tabla de frecuencias,para calcular la mediana se utilizan las frecuencias absolutas acumuladas:
valor ni fi Ni Fi
0 2 0.08 2 0.081 3 0.12 5 0.22 4 0.16 9 0.363 8 0.32 17 0.684 5 0.2 22 0.885 3 0.12 25 1
x̄ = 2.8 , x̃ = 3
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 20 / 28
Métodos para el resumen de conjuntos de datos
Ejemplo 3 (continuación)
8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
x̄ = 11.35294 , x̃ = 11.45
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 21 / 28
Métodos para el resumen de conjuntos de datos
Medidas de posición: cuartilesPrimer cuartil (Q1) es el valor que deja a su izquierda la cuarta parte de los
datos. Para calcularlo se ordenan los datos de menor a mayor y se toman + 1
2redondeado por defecto. A este número lo llamamos q.
Si q es impar, Q1 es el dato que ocupa la posiciónq + 1
2.
Si q es par, Q1 es el punto medio de los datos que ocupan las posicionesq2
yq2
+ 1.
Segundo cuartil (Q2) Es el valor que deja a la izquierda dos cuartas partes de losdatos. Por tanto se trata de la mediana, Q2 = x̃.Tercer cuartil (Q3) Es el valor que deja a la izquierda las tres cuartas partes delos datos. Su posición es simétrica a la de Q1.
Otras medidas de posiciónDeciles: El decil i-ésimo deja i/10 de los datos a la izquierda.Percentiles: El percentil p deja el 100p% de los datos a la izquierda.
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 22 / 28
Métodos para el resumen de conjuntos de datos
Ejemplo 3 (continuación)7.80 8.50 8.60 9.10 9.20 9.30 9.709.90 10.10 10.20 10.30 10.60 10.80 11.10
11.10 11.30 11.40 11.50 11.60 11.80 11.9012.00 12.20 12.30 12.30 12.40 12.40 12.5012.50 12.50 12.70 14.90 15.00 16.50
Q1 = 10.10 , Q2 = x̃ = 11.45 , Q3 = 12.40
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 23 / 28
Métodos para el resumen de conjuntos de datos
Medidas de dispersiónRango (R): diferencia entre el máximo y el mínimo.Varianza muestral (s2):Mide la variabilidad de los datos respecto de la media muestral x̄.
s2 =1
n− 1
n∑i=1
(xi − x̄)2 =1
n− 1
(n∑
i=1
x2i − nx̄2
)
Desviación típica (s):Se define como s =
√s2. La raíz cuadrada compensa el hecho de haber elevado
los datos al cuadrado. Por tanto se mide en las mismas unidades que los datos.
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 24 / 28
Métodos para el resumen de conjuntos de datos
Medidas de dispersiónRango intercuartílico (RI): Distancia entre Q1 y Q3, RI = Q3 − Q1. En estadistancia se concentran el 50% de los datos, concretamente los que ocupanposiciones centrales.Coeficiente de variación (C.V.): Mide la dispersión de los datos en relación asu orden de magnitud. Se utiliza para comparar la dispersión de distintos gruposde datos.
C.V. =sx̄· 100
Ejemplo 3 (continuación)
R = 8.7 , s2 = 3.514082 , s = 1.874588
RI = 2.30 , C.V. = 16.51%
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 25 / 28
Métodos para el resumen de conjuntos de datos
Diagramas de cajaSe trata de una representación gráfica ligada a los cuartiles. Con los datos del Ejemplo3 podemos dibujar el siguiente:
●
810
1214
16
Q1
Q3
x~
h1
h3
h1 es el dato más próximo a Q1 − 1.5RI mayor que este valor.h3 es el dato más próximo a Q3 + 1.5RI menor que este valor.
Los valores menores que h1 ó mayores que h3 son valores atípicos que pueden serdatos influyentes o simplemente mal tomados.
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 26 / 28
Métodos para el resumen de conjuntos de datos
Medidas de forma: coeficiente de asimetríaEl coeficiente de asimetría (g1) se define como:
g1 =
1n
∑n
i=1(xi − x̄)3
s3
Conforme más próximo esté g1 a 0 más simetría presentan los datos. Si g1 > 0 hayuna desviación hacia valores altos y si g1 < 0 hacia valores bajos.
g1=0
1 2 3 4 5 6
0.0
0.1
0.2
0.3
0.4
g1>0
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
g1<0
0 2 4 6 8 10 120.
000.
050.
100.
150.
20
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 27 / 28
Métodos para el resumen de conjuntos de datos
Medidas de forma: coeficiente de curtosisEl coeficiente de aplastamiento o de curtosis (g2) Se define como:
g2 =
1n
∑n
i=1(xi − x̄)4
s4 − 3
Si g2 = 0 el grado de aplastamiento de los datos será similar al de una campana deGauss. Si g2 > 0 los datos presentan un menor aplastamiento que la campana deGauss y si g2 < 0, los datos aparecen más aplastados que la campana de Gauss.
Ejemplo 3 (continuación)
g1 = 0.4899285 , g2 = 0.3731027
Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 28 / 28