22
Estadística Descriptiva. Grado en Biología. Universidad de Alcalá. Curso 2017-18. Capítulo 1: Introducción. Autor: Fernando San Segundo. Actualizado: 2017-09-23 Capítulo 1: Introducción. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado: 2017-09-2 / 22

Estadística Descriptiva. - Universidad de Alcalá (UAH

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Estadística Descriptiva.

Grado en Biología. Universidad de Alcalá. Curso 2017-18.

Capítulo 1: Introducción.

Autor: Fernando San Segundo. Actualizado: 2017-09-23

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 1

/ 22

Introducción a la Estadística Descriptiva.

Variables.Una variable es la representación de una característica de los individuos de lapoblación, que puede tomar valores diferentes en individuos distintos (¡por eso esvariable!). Los datos que obtenemos a partir de una muestra de la población suelenorganizarse en forma de tablas en las que desde el principio procuraremos que:

I Cada columna de la tabla corresponda a una variable medida en la muestra.I Cada fila de la tabla corresponda a una observación (individuo) de la muestra.

No todas las tablas que encontraremos están organizadas de esta manera, pero comoveremos ese es el formato que más facilita nuestro trabajo.Las variables se clasifican de distintas maneras. Inicialmente, vamos a clasificarlasatendiendo a la naturaleza de la información que contienen. Más adelante en el cursoveremos que también es posible clasificarlas por el papel que juegan en nuestrotrabajo (por ejemplo, distinguiendo entre variables predictoras y variables respuesta).

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 2

/ 22

Tipos de Variables.Según la naturaleza de la información que contienen, distinguiremos dos grandesfamilias de variables:

I Variables cualitativas (o factores).I Variables cuantitativas.

Una variable cualitativa (factor) contiene información de clasificación de losindividuos. Por ejemplo, si tomamos una muestra de organismos presentes en unecosistema y para cada uno de ellos anotamos la especie a la que pertenece, esavariable especie es un factor. El género (hombre/mujer), la nacionalidad, el ser o nofumador, son todo ejemplos de factores.

Una variable cuantitativa contiene información medida sobre una escala numérica,con el añadido de que esos valores numéricos tienen un significado importante paranosotros. En particular, las operaciones matemáticas con esos valores (por ejemplo,calculando la media de un conjunto de valores) producen información relevante.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 3

/ 22

Ejemplo: WCGS (epitools)El conjunto de datos Western Collaborative Group Study (WCGS) contiene 3154observaciones (filas) de estas variables (columnas), entre otras:

id: un identificador del sujeto.age0: edad en añosheight0: altura en pulgadasweight0: peso en librassbp0: presión sistólica en mm Hgdbp0: presión diástólica en mm Hgchol0: colesterol sanguíneo en mg/100 mlncigs0: número de cigarrillos fumados por díachd69: presencia (valor 1) o ausencia (valor 0) de enfermedad coronaria.arcus0: presencia (valor 1) o ausencia (valor 0) de arco senil.

¿Cuáles de esas variables son factores y cuáles son cuantitativas?

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 4

/ 22

Más detalles sobre factores.Los valores de un factor se pueden representar mediante números. Por ejemplo,podemos representar el género de los individuos mediante el código:

mujer = 1, hombre = 2

Pero en este caso esos valores numéricos son meras etiquetas. Si las intercambiamos,eso no afecta a ninguna información relevante sobre la muestra.

En muchos casos encontraremos factores que sólo toman dos valores posibles (porejemplo sano/enfermo). Ese tipo de factores se denominan binarios o dicotómicos.A menudo se codifican (arbitrariamente) mediante los valores 1 y 0 (con la ventaja deque entonces la media se puede interpretar como proporción de individuos etiquetadoscon 1).

Los factores que toman más de dos valores se denominan a veces politómicos. Y losdistintos valores de un factor se llaman niveles. Por ejemplo, la estación del año es unfactor con cuatro niveles: primavera, verano, otoño, invierno.

¿Puedes pensar en más ejemplos de factores dicotómicos y politómicos?

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 5

/ 22

Más detalles sobre factores.Otro caso especial lo constituyen los factores ordenados. En este caso se trata devalores que tienen el mismo carácter clasificatorio, de etiquetas, pero que estánordenados de alguna manera.

Por ejemplo, la escala que se utiliza para indicar los niveles de circulación en lascarreteras: niveles blanco, verde, amarillo, rojo y negro, que indican dificultadescrecientes para la circulación. Fíjate en que podríamos codificarlos numéricamente del0 al 4, según el orden de la dificultad. Pero no puedes llevar demasiado lejos larepresentación numérica. El nivel 4 no es dos veces peor que el nivel 2. No significa,por ejemplo, que vayas a tardar el doble; los números no servirían para eso (además,podríamos haber usado números del 1 al 5).

Busca otros ejemplos de factores ordenados que se usen en Biología.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 6

/ 22

Variables cuantitativas: discretas y continuas.Las variables cuantitativas son auténticas variables numéricas, en el sentido de que losvalores numéricos que toman tienen asociada una escala de medida que es relevantepara el problema que nos ocupa. Muchas magnitudes físicas (masa, tiempo, longitud,volumen, potencial eléctrico, presión, etc.) son variables cuantitativas.

Dentro de las variables cuantitativas establecemos también una diferencia entre dostipos de variables:

I Variables cuantitativas discretas: estas varaibles se caracterizan porque sus valores seincrementan a saltos. Por ejemplo, el número de huevos en una puesta de un ave.Puede ser una puesta de dos o de tres huevos, pero no de dos huevos y medio. En lasvariables discretas hay una unidad mínima indivisible, y los únicos valores posibles sonmúltiplos de esa unidad. Un ejemplo frecuente en Biología es cuando contamos elnúmero de individuos presentes (variables de recuento).

I Variables cuantitativas continuas: en este caso los valores de la variable pueden tomarcualquier valor en un intervalo de números reales y no existe esa unidad mínima demedida.

Antes de seguir, trata de pensar en ejemplos de ambos tipos de variables.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 7

/ 22

La diferencia entre discreto y continuo es metodológica.Por ejemplo, pensemos en la variable tiempo. Está claro que es cuantitativa, porquepodemos medirla en una escala (un reloj) y las operaciones aritméticas con unidadesde tiempo tienen sentido físico. Pero ¿es discreta o es continua?

No estamos tratando de plantear un debate profundo sobre la naturaleza del tiempo(que tendría perfecto sentido en Física). La respuesta correcta, para nosotros, es quedepende de la forma en que se use la variable tiempo en nuestro problema.

Por ejemplo, si estás comparando el período de gestación entre distintos individuos deuna especie de mamíferos, es muy posible que lo midas en días enteros. El día es unaunidad natural y cómoda para un problema como ese. Pero no es indivisible, claroestá. Podrías medir el tiempo en horas, en minutos, segundos, décimas, etc.. Pero lomás relevante es que una diferencia de algunas horas o minutos entre individuosseguramente no nos parece científicamente relevante, mientras que una diferencia devarios dias sí puede serlo. El tiempo, en este caso, se representa como una variablediscreta, que avanza a saltos de un día.

Busca ejemplos en los que lo natural sea considerar el tiempo como una variable continua.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 8

/ 22

Cifras significativas.Cuando tratemos con valores de variables continuas a menudo vamos a tener queredondear un número a una cirea cantidad de cifras significativas.Por ejemplo, vamos a redondear a cinco cifras significativas el número:

0.00337995246

1 Empezando desde la primera cifra del número (la situada más a la izquierda),buscamos la primera cifra que no sea un cero (los ceros a la izquierda no se tienen encuenta).

2 Empezamos a contar desde la cifra que hemos localizado en el paso anterior(inclusive), y hacia la derecha, hasta llegar a cinco cifras.

3 Miramos la siguiente cifra y si esa cifra es mayor o igual a 5, sumamos 1 a la últimade las cinco cifras del paso anterior.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 9

/ 22

Cifras significativas.El resultado en el ejemplo anterior es:

0.0033800

Aprenderemos también a usar R para redondear de manera automática.Es importante recordar que el redondeo sólo se debe aplicar al resultado final quevamos a comunicar y no a los pasos intermedios, para evitar pérdidas innecesarias deprecisión.Redondea 2.712798 a 4 cifras significativas y 0.023899275 a 5 cifras significativas.Mira también el primer cuestionario del curso.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 10

/ 22

Tablas de frecuencia.Una vez que hemos discutido los tipos de variables que vamos a observar en unamuestra, vamos a empezar a extraer información de la muestra. Una variablecuantitativa continua puede tomar infinitos valores distintos. En cambio los factores ylas variables cuantitativas discretas con los que vamos a trabajar sólo podrán tomaruna cantidad finita (y en general no muy grande) de valores.

Eso significa que con muestras grandes habrá valores repetidos. Por ejemplo, si enuna encuesta preguntamos a la gente si son fumadores (con respuesta sí/no), esevidente que enseguida tendremos valores repetidos.

La frecuencia absoluta fi del valor xi en una muestra es el número de veces que esevalor aparece repetido en la muestra. Una tabla de frecuencias absolutas muestratodos los valores que aparecen en la muestra y la frecuencia correspondiente a cadauno de ellos.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 11

/ 22

Ejemplo de tabla de frecuencias.Imagínate que las respuestas a la encuesta sobre fumadores han generado esta muestra de200 respuestas:

Sí No No No Sí Sí No No No No No No No No No No No No Sí Sí No No Sí Sí No Sí No No No No Sí No No No Sí No No No No No No No No No Sí

No No No Sí Sí No Sí No No No No No Sí No Sí No No No Sí No No No No No No Sí No No Sí Sí No No No No Sí No Sí No Sí No No No No No No Sí

No No No Sí No Sí No Sí No Sí Sí No No No No No No No No No No Sí No Sí No No No No No Sí No No No No No No No Sí No No No No No No No

Sí No No No Sí Sí No No No No No Sí Sí No Sí No No No No Sí No No No No No No Sí No No No No No No No No No Sí No Sí No No No No Sí No

No No No No No No Sí No No No No No No No No No Sí No No

La correspondiente tabla de frecuencias absolutas es:

No 154Sí 46

Una de las primeras cosas que vamos a aprender a hacer es obtener estas tablas defrecuencias.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 12

/ 22

Ejemplo: fichero cap01-DatosAlumnos-Calc.csvEnlace de descarga del fichero cap01-DatosAlumnos-Calc.csv¡Recuerda empezar explorándolo con un editor de texto (ver Tutoriales)!Vamos a construir una tabla de frecuencia para la variable edad en este fichero.

¿Qué crees que sucedería al tratar de hacer lo mismo con peso o altura?

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 13

/ 22

Algo de notación.A lo largo del curso usaremos a menudo símbolos como:

x1, x2, x3, . . . , xn

para representar los valores de una variable x que aparecen en una muestra.Hay que tener un poco de cuidado. A veces esos símbolos representanexactamente a la muestra (con repeticiones):

x1 = 19, x2 = 17, x3 = 20, x4 = 20, x5 = 20, x6 = 18, x7 = 20, . . . , x99 = 17, x100 = 19

Pero otras veces, al usar tablas de frecuencias, los símbolos xi representarán losvalores distintos (sin repeticiones) que aparecen en la muestra. Por ejemplo, para lavariable edad sería:

x1 = 17, x2 = 18, x3 = 19, x4 = 20

porque esos cuatro son todos los valores distintos de edad que aparecen en la tabla.En estos casos usaremos los símbolos fi para indicar las frecuencias absolutas de cadauno de los valores.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 14

/ 22

La tabla de frecuencia de edad.Para edad es:

Valor xi : x1 = 17 x2 = 18 x3 = 19 x4 = 20Frecuencia fi : f1 = 17 f2 = 37 f3 = 23 f4 = 23

En cualquier caso, reservaremos siempre la letra n para indicar el número total deobservaciones que componen la muestra (y a menudo usaremos k para el número devalores distintos). En el caso de edad es n = 100 (y k = 4).

¿Cuánto vale la suma de todas las frecuencias absolutas f1 + f2 + · · · + fk?En los Tutoriales 1 y 2 aprenderás a construir estas tablas de frecuencia con Calc y R.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 15

/ 22

Frecuencias relativas.Las frecuencias absolutas, para poder interpretarse, deben ir siempre acompañadas deltotal de observaciones n. Y si queremos comparar dos muestras de tamaños distintoseso resulta engorroso.

La solución, bien conocida, consiste en traducir las frecuencias absolutas enporcentajes, que son tantos por ciento o en tantos por uno, que son las frecuenciasrelativas. Si tenemos una muestra con k valores distintos (recuerda que n es eltamaño total)

x1, x2, . . . , xkcuyas frecuencias absolutas son:

f1, f2, . . . , fk

entonces las frecuencias relativas se obtienen dividiendo por n:

f ′1 = f1

n , f ′2 = f2

n , . . . , f ′k = fk

n

Recuerda que son tantos por uno (la suma de frecuencias relativas es siempre 1) y seconvierten fácilmente en porcentajes multiplicando por 100.Las frecuencias relativas están muy cerca de la idea de probabilidad, como iremosviendo.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 16

/ 22

Ejemplos de cálculo de frecuencias relativas.Para la variable edad, puesto que teníamos:

Valor xi : x1 = 17 x2 = 18 x3 = 19 x4 = 20Frecuencia fi : f1 = 17 f2 = 37 f3 = 23 f4 = 23

y n = 100 en este caso las frecuencias relativas son muy fáciles de calcular:

Valor xi : x1 = 17 x2 = 18 x3 = 19 x4 = 20Frecuencia relativa f ′

i : f ′1 = 0.17 f ′

2 = 0.37 f ′3 = 0.23 f ′

4 = 0.23

Y su interpretación como porcentajes es inmediata: por ejemplo, el 37% de los individuostienen 18 años de edad.

Si eliges un individuo de esa muestra al azar, ¿cuál es la probabilidad de que su edad sea19?Ver también la Tabla 2.3 del libro, en la página 28, para un ejemplo un poco máscomplicado.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 17

/ 22

Gráficos de barras.A lo largo del curso vamos a tratar de insistir en la importancia de la visualizacióncorrecta de los datos, durante la fase de exploración y en la comunicación deresultados del análisis. Hay representaciones gráficas que ayudan a transmitircorrectamente la información estadística y otras que, por el contrario, la oscurecen.La mejor forma de representar gráficamente una tabla de frecuencias es mediante undiagrama de barras como este:

Fre

cuen

cia

abso

luta

050

100

150

No Sí

154 (0.77%)

46 (0.23%)

Indica siempre en el eje horizontal las magnitudes (y unidades si es el caso). La basede las columnas debe partir de 0. No recargues los gráficos (para muestra, un horror)Los diagramas circulares de sectores son muy desaconsejables (ver Figura 1.2, pág. 11del libro).

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 18

/ 22

El caso de las variables continuas. Datos agrupados.La discusión anterior se refiere a los casos de factores y variables cuantitativasdiscretas. En el caso de una variable continua a menudo se agrupan los datos enintervalos (o clases).

Por ejemplo, los datos de altura, agrupados en intervalos de 5cm producen estatabla de frecuencias:

[1.5,1.55] (1.55,1.6] (1.6,1.65] (1.65,1.7] (1.7,1.75] (1.75,1.8] (1.8,1.85]1 11 16 35 28 8 1

¡Agrupar no es inofensivo! Al menos por dos razones:I Siempre se pierde información.I La elección de los intervalos en los que agrupamos es arbitraria y puede introducir

distorsiones.

Por esas razones, debemos posponer la agrupación en intervalos hasta el final del análisis ysólo usarla para resumir la información en tablas y gráficos, nunca para obtenerinformación a partir de los datos agrupados.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 19

/ 22

Histogramas.¿Cuál es el gráfico adecuado para representar datos agrupados? Podemos elegir (ocombinar, como veremos) entre el histograma y el diagrama de densidad.El histograma es un tipo especial de diagrama de columnas en el que:

I Las bases de cada una de las columnas se corresponden con los intervalos en los quehemos dividido el recorrido de los valores de la variable continua. No hay espacio entrecolumnas.

I El área (¡y no la altura!) de cada columna es proporcional a la frecuenciacorrespondiente a ese intervalo.

Aquí está el histograma de los valores de altura:

1.50 1.55 1.60 1.65 1.70 1.75 1.80 1.85

05

1525

35

Altura

Fre

cuen

cias

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 20

/ 22

Atención al caso de intervalos de anchuras distintas.En un caso como este:

Clase [0,2] (2,4] (4,6] (6,8] (8,12]Frecuencia 1320 3231 1282 900 1105

en el que no todos los intervalos son de la misma anchura, es especialmente importanteque el histograma está bien construido.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 21

/ 22

Diagrama de densidad.El diagrama de densidad dibuja una curva continua, que puedes interpretar comouna versión suavizada del histograma. Es especialmente interesante en muestrasgrandes (ya precisaremos) y siempre lo dibujaremos con el ordenador. A menudo esinteresante combinarlo con el histograma.

1.50 1.55 1.60 1.65 1.70 1.75 1.80 1.85

02

46

Altura

Fre

cuen

cias

En las prácticas aprenderemos a dibujarlos usando R.La información más importante que contienen estos gráficos se refiere a la forma en laque se distibuyen los datos entre los distintos valores posibles. Esa idea de la formade la distribución de los datos es una de las nociones centrales de la Estadística.

Capítulo 1: Introducción. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-23 22

/ 22