28
Tema 2: Análisis Descriptivo de Conjuntos de Datos Estadística. 4 o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 1 / 28

Tema 2: Análisis Descriptivo de Conjuntos de Datos ...matematicas.unex.es/~mota/ciencias_ambientales/tema2_nuevo.pdf · resumir convenientemente la información contenida en un conjunto

  • Upload
    vuque

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Tema 2: Análisis Descriptivo de Conjuntos de DatosEstadística. 4o Curso

Licenciatura en Ciencias Ambientales

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 1 / 28

Índice

1 Objetivos de la Estadística Descriptiva

2 Conceptos Básicos

3 Métodos para la organización de conjuntos de datos

4 Métodos para la representación gráfica de conjuntos de datos

5 Métodos para el resumen de conjuntos de datos

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 2 / 28

Objetivos de la Estadística Descriptiva

Estudia los procedimientos apropiados para organizar, representar gráficamente yresumir convenientemente la información contenida en un conjunto de datos.

Es la parte de la Estadística más conocida por ser muy frecuentemente utilizada en losmedios de comunicación y en la vida cotidiana.

Los procedimientos que proporciona la Estadística Descriptiva sólo permiten obtenerconclusiones para los conjuntos de datos recogidos y no para las poblaciones de lasque han sido extraídos.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 3 / 28

Conceptos Básicos

Experimentos estadísticosUna vez seleccionada la muestra de la población, medimos en las n unidadesexperimentales la variable o variables que pretendemos estudiar.Si X es una de estas variables obtendremos que x1, . . . , xn son los valores que toma lavariable X en los individuos 1, 2, . . . , n, respectivamente. Se denomina a su vezmuestra de la variable X.

Ejemplo de tabla de datosX Y Z W . . .

1 x1 y1 z1 w1 . . .2 x2 y2 z2 w2 . . .3 x3 y3 z3 w3 . . .4 x4 y4 z4 w4 . . ....

......

......

n xn yn zn wn . . .

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 4 / 28

Métodos para la organización de conjuntos de datos

Tablas de frecuencias: Variables cualitativasn (tamaño de la muestra) frecuencia total.M1, . . . , Mk modalidades distintas de la variable sobre la muestra.

ni ≡ frecuencia absoluta de Mi; es el número de veces que se repite la modalidadMi (n1 + · · ·+ nk = n )

fi ≡ frecuencia relativa de la modalidad Mi; fi =ni

n(f1 + · · ·+ fk = 1)

Mod. ni fi

M1 n1 f1

M2 n2 f2

......

...Mk nk fk

n 1

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 5 / 28

Métodos para la organización de conjuntos de datos

Ejemplo 1En una zona contaminada se tomaron una serie de muestras de aire y se midieron losniveles de CO (alto, medio, bajo), obteniéndose los siguientes resultados:

dato 1 2 3 4 5 6 7 8 9 10CO A A M B A M B B A Mdato 11 12 13 14 15 16 17 18 19 20CO B A A M A A B M M B

Mod. ni fi

Alto 8 0.4Medio 6 0.3Bajo 6 0.3

20 1

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 6 / 28

Métodos para la organización de conjuntos de datos

Tablas de frecuencias: Variables cuantitativas discretasn (tamaño de la muestra) frecuencia total.x1, . . . , xk valores distintos de la variable sobre la muestra. (x1 < · · · < xn)

ni ≡ frecuencia absoluta y fi ≡ frecuencia relativa; se definen del mismomodo que para las variables cualitativas.Ni ≡ frecuencia absoluta acumulada de xi; Ni = n1 + · · ·+ ni (Nk = n)Fi ≡ frecuencia relativa acumulada de xi; Fi = f1 + · · ·+ fi (Fk = n)

valor ni fi Ni Fi

x1 n1 f1 N1 F1

x2 n2 f2 N2 F2

......

......

...xk nk fk Nk = n Fk = 1

n 1

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 7 / 28

Métodos para la organización de conjuntos de datos

Ejemplo 2Se desea saber el riesgo de extinción de la cigüeña en una cierta región. Se eligen endicha región 25 nidos mediante un MAS, contando los huevos que hay en cada nido.Resulta que 2 de los nidos no tenían huevos, 3 tenían un huevo, 4 tenían 2 huevos, 8tenían 3 huevos, 5 tenían 4 huevos y el resto 5 huevos.

valor ni fi Ni Fi

0 2 0.08 2 0.081 3 0.12 5 0.22 4 0.16 9 0.363 8 0.32 17 0.684 5 0.2 22 0.885 3 0.12 25 1

25 1

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 8 / 28

Métodos para la organización de conjuntos de datos

Tablas de frecuencias: Variables cuantitativas continuasAntes de construir la tabla de frecuencias hay que agrupar los datos de estas variablesen intervalos. La forma de hacerlo es la siguiente:

Determinar valores máximo (Vmax) y mínimo (Vmin) de los datos.Determinar el número (k) de intervalos a construir, que deben ser todos de lamisma amplitud.

Determinar la amplitud de los intervalos: a ≈ Vmax − Vmin

k

A veces conviene redondear esta amplitud pero NUNCA DEBEMOS PERDERNINGÚN DATO EN EL PROCESO.

¿Cómo determinar el número de intervalos?Categorías prefijadas en estudios anteriores.A criterio del investigador.Mediante la Fórmula de Sturges (k ≈ 1 + 3.322 log10 n) u otra similar.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 9 / 28

Métodos para la organización de conjuntos de datos

Ejemplo 3En la siguiente tabla se muestran los niveles de colinesterasa de 34 agricultoresexpuestos a insecticidas agrícolas:

10.6 12.2 11.8 12.5 10.8 12.7 11.1 16.5 11.4 9.2 15.0 9.311.5 10.3 8.6 9.9 12.4 8.5 11.9 9.1 10.1 11.6 7.8 12.414.9 11.3 11.1 12.5 12.3 10.2 12.5 9.7 12.3 12.0

Vmin = 7.8 , Vmax = 16.5 , k ≈ 1 + 3.322 log10 34 = 6.08 ≈ 6

a ≈ 16.5− 7.86

= 1.45(≈ 1.5)

Sin redondear:[7.8, 9.25], (9.25, 10.7], (10.7, 12.15], (12.15, 13.6], (13.6, 15.05], (15.05, 16.5]Redondeando:[7.5, 9], (9, 10.5], (10.5, 12], (12, 13.5], (13.5, 15], (15, 16.5]

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 10 / 28

Métodos para la organización de conjuntos de datos

Tablas de frecuencias: variables cuantitativas continuasI1 = [a0, a1], I2 = (a1, a2], . . . , Ik = (ak−1, ak] intervalos en los que se han agrupadolos datos.

ni ≡ frecuencia absoluta del intervalo Ii; es el número de valores que pertenecenal intervalo Ii.

fi ≡ frecuencia relativa del intervalo Ii; fi =ni

nNi ≡ frecuencia absoluta acumulada del intervalo Ii; Ni = n1 + · · ·+ ni

Fi ≡ frecuencia relativa acumulada del intervalo Ii; Fi = f1 + · · ·+ fi

intervalo ni fi Ni Fi

I1 n1 f1 N1 F1

I2 n2 f2 N2 F2

......

......

...Ik nk fk Nk = n Fk = 1

n 1

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 11 / 28

Métodos para la organización de conjuntos de datos

Ejemplo 3 (continuación)Tabla de frecuencias para los datos de los niveles de colinesterasa de 34 agricultoresexpuestos a insecticidas agrícolas:

intervalo ni fi Ni Fi

[7.5, 9] 3 0.088 3 0.088

(9, 10.5] 8 0.235 11 0.323

(10.5, 12] 11 0.324 22 0.647

(12, 13.5] 9 0.265 31 0.911

(13.5, 15] 2 0.059 33 0.971

(15, 16.5] 1 0.029 34 134 1

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 12 / 28

Métodos para la representación gráfica de conjuntos dedatos

Variables cualitativas: diagrama de sectoresSe calculan frecuencias relativas (fi).A la modalidad Mi se le asigna un ángulo de fi · 360o.No es conveniente que haya un número excesivo de modalidades.

Ejemplo 1 (continuación)

Mod. ni fi gradosAlto 8 0.4 144

Medio 6 0.3 108Bajo 6 0.3 108

20 1

Alto

Bajo

Medio

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 13 / 28

Métodos para la representación gráfica de conjuntos dedatos

Variables cualitativas: diagrama de barrasEsta representación consiste en construir tantos rectángulos o barras comomodalidades presente el carácter bajo estudio. La altura que alcanza cada barra puedeser igual a la frecuencia absoluta o bien a la frecuencia relativa de la modalidad a laque corresponde dicha barra.

Ejemplo 1 (continuación)

Mod. ni fi

Alto 8 0.4Medio 6 0.3Bajo 6 0.3

20 1Alto Bajo Medio

02

46

8

Alto Bajo Medio

0.0

0.1

0.2

0.3

0.4

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 14 / 28

Métodos para la representación gráfica de conjuntos dedatos

Variables cuantitativas discretas: polígono de frecuenciasSe colocan los valores ordenados de menor a mayor en el eje horizontal. A cada valorde la variable se le asocia un punto con la altura correspondiente a su frecuenciaabsoluta o bien a su frecuencia relativa. Los puntos se conectan mediante segmentos.Este polígono puede representarse de forma superpuesta a un diagrama de barras.

Ejemplo 2 (continuación)

valor ni fi

0 2 0.081 3 0.122 4 0.163 8 0.324 5 0.25 3 0.12

25 1 0 1 2 3 4 5

02

46

8

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 15 / 28

Métodos para la representación gráfica de conjuntos dedatos

Variables cuantitativas continuas: histogramaPara construir el histograma partimos de la tabla de frecuencias de los datos.Dividimos el eje horizontal en los intervalos en que hemos agrupado los datos.Sobre cada intervalo construiremos un rectángulo. Para la altura de estos rectángulostenemos tres opciones:

Las frecuencias absolutas.Las frecuencias relativas.Se construyen rectángulos cuyas áreas sean las frecuencias relativas. Si hi es laaltura del rectángulo que hay sobre el intervalo Ii y a es la amplitud de todos losintervalos

fi = hi · a ⇒ hi =fia

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 16 / 28

Métodos para la representación gráfica de conjuntos dedatos

Ejemplo 3 (continuación)

intervalo ni fi Ni Fi[7.5, 9] 3 0.088 3 0.088

(9, 10.5] 8 0.235 11 0.323

(10.5, 12] 11 0.324 22 0.647

(12, 13.5] 9 0.265 31 0.911

(13.5, 15] 2 0.059 33 0.971

(15, 16.5] 1 0.029 34 134 1 8 10 12 14 16

0.00

0.05

0.10

0.15

0.20

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 17 / 28

Métodos para el resumen de conjuntos de datos

¡¡¡Advertencia!!!

SÓLO PARA VARIABLES CUANTITATIVAS DISCRETAS Y CONTINUAS SINAGRUPAR

Medidas de centralización: moda y mediaLa moda es el dato más repetido. Puede haber más de una.

La media (x̄) es el valor central en el sentido aritmético. Viene a ser el “centro degravedad” de los datos.

x̄ =x1 + · · ·+ xn

nSi la variable es discreta y los datos están agrupados en una tabla de frecuencias

x̄ =x1n1 + · · ·+ xknk

n= x1f1 + · · ·+ xkfk

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 18 / 28

4. Medidas de síntesis de la información

Medidas de centralización: medianaLa mediana (x̃) es un valor que deja la mitad de los datos a su izquierda y la otramitad a su derecha. Ocupa la posición central en el sentido del orden.Para calcularla hay que ordenar los datos de menor a mayor y entonces:

Si n impar, x̃ ≡ dato que ocupa la posiciónn + 1

2

Si n par, x̃ ≡ punto medio de los datos que ocupan las posicionesn2

yn2

+ 1

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 19 / 28

Métodos para el resumen de conjuntos de datos

Ejemplo 2 (continuación)Si en una variable discreta nos dan los datos agrupados en una tabla de frecuencias,para calcular la mediana se utilizan las frecuencias absolutas acumuladas:

valor ni fi Ni Fi

0 2 0.08 2 0.081 3 0.12 5 0.22 4 0.16 9 0.363 8 0.32 17 0.684 5 0.2 22 0.885 3 0.12 25 1

x̄ = 2.8 , x̃ = 3

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 20 / 28

Métodos para el resumen de conjuntos de datos

Ejemplo 3 (continuación)

8 10 12 14 16

0.00

0.05

0.10

0.15

0.20

x̄ = 11.35294 , x̃ = 11.45

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 21 / 28

Métodos para el resumen de conjuntos de datos

Medidas de posición: cuartilesPrimer cuartil (Q1) es el valor que deja a su izquierda la cuarta parte de los

datos. Para calcularlo se ordenan los datos de menor a mayor y se toman + 1

2redondeado por defecto. A este número lo llamamos q.

Si q es impar, Q1 es el dato que ocupa la posiciónq + 1

2.

Si q es par, Q1 es el punto medio de los datos que ocupan las posicionesq2

yq2

+ 1.

Segundo cuartil (Q2) Es el valor que deja a la izquierda dos cuartas partes de losdatos. Por tanto se trata de la mediana, Q2 = x̃.Tercer cuartil (Q3) Es el valor que deja a la izquierda las tres cuartas partes delos datos. Su posición es simétrica a la de Q1.

Otras medidas de posiciónDeciles: El decil i-ésimo deja i/10 de los datos a la izquierda.Percentiles: El percentil p deja el 100p% de los datos a la izquierda.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 22 / 28

Métodos para el resumen de conjuntos de datos

Ejemplo 3 (continuación)7.80 8.50 8.60 9.10 9.20 9.30 9.709.90 10.10 10.20 10.30 10.60 10.80 11.10

11.10 11.30 11.40 11.50 11.60 11.80 11.9012.00 12.20 12.30 12.30 12.40 12.40 12.5012.50 12.50 12.70 14.90 15.00 16.50

Q1 = 10.10 , Q2 = x̃ = 11.45 , Q3 = 12.40

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 23 / 28

Métodos para el resumen de conjuntos de datos

Medidas de dispersiónRango (R): diferencia entre el máximo y el mínimo.Varianza muestral (s2):Mide la variabilidad de los datos respecto de la media muestral x̄.

s2 =1

n− 1

n∑i=1

(xi − x̄)2 =1

n− 1

(n∑

i=1

x2i − nx̄2

)

Desviación típica (s):Se define como s =

√s2. La raíz cuadrada compensa el hecho de haber elevado

los datos al cuadrado. Por tanto se mide en las mismas unidades que los datos.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 24 / 28

Métodos para el resumen de conjuntos de datos

Medidas de dispersiónRango intercuartílico (RI): Distancia entre Q1 y Q3, RI = Q3 − Q1. En estadistancia se concentran el 50% de los datos, concretamente los que ocupanposiciones centrales.Coeficiente de variación (C.V.): Mide la dispersión de los datos en relación asu orden de magnitud. Se utiliza para comparar la dispersión de distintos gruposde datos.

C.V. =sx̄· 100

Ejemplo 3 (continuación)

R = 8.7 , s2 = 3.514082 , s = 1.874588

RI = 2.30 , C.V. = 16.51%

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 25 / 28

Métodos para el resumen de conjuntos de datos

Diagramas de cajaSe trata de una representación gráfica ligada a los cuartiles. Con los datos del Ejemplo3 podemos dibujar el siguiente:

810

1214

16

Q1

Q3

x~

h1

h3

h1 es el dato más próximo a Q1 − 1.5RI mayor que este valor.h3 es el dato más próximo a Q3 + 1.5RI menor que este valor.

Los valores menores que h1 ó mayores que h3 son valores atípicos que pueden serdatos influyentes o simplemente mal tomados.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 26 / 28

Métodos para el resumen de conjuntos de datos

Medidas de forma: coeficiente de asimetríaEl coeficiente de asimetría (g1) se define como:

g1 =

1n

∑n

i=1(xi − x̄)3

s3

Conforme más próximo esté g1 a 0 más simetría presentan los datos. Si g1 > 0 hayuna desviación hacia valores altos y si g1 < 0 hacia valores bajos.

g1=0

1 2 3 4 5 6

0.0

0.1

0.2

0.3

0.4

g1>0

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

g1<0

0 2 4 6 8 10 120.

000.

050.

100.

150.

20

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 27 / 28

Métodos para el resumen de conjuntos de datos

Medidas de forma: coeficiente de curtosisEl coeficiente de aplastamiento o de curtosis (g2) Se define como:

g2 =

1n

∑n

i=1(xi − x̄)4

s4 − 3

Si g2 = 0 el grado de aplastamiento de los datos será similar al de una campana deGauss. Si g2 > 0 los datos presentan un menor aplastamiento que la campana deGauss y si g2 < 0, los datos aparecen más aplastados que la campana de Gauss.

Ejemplo 3 (continuación)

g1 = 0.4899285 , g2 = 0.3731027

Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 28 / 28