48
BIOESTADISTICA Departamento de Epidemiología, Medicina Preventiva, Análisis crítico y Metodología de la investigación Universidad Católica de Valencia San Vicente Mártir Facultad de Medicina ESTADÍSTICA APLICADA Odontología (OD1) Departamento de Epidemiolog Departamento de Epidemiología, a, An Análisis critico y Metodolog lisis critico y Metodologí a de la investigaci a de la investigación BIOESTADISTICA Tema 3: Estadística Descriptiva Departamento de Epidemiolog Departamento de Epidemiología, a, An Análisis critico y Metodolog lisis critico y Metodologí a de la investigaci a de la investigación OBJETIVOS DEL TEMA: OBJETIVOS DEL TEMA: 1. 1. Conocer como se produce la recopilaci Conocer como se produce la recopilación y tabulaci n y tabulación de los datos. n de los datos. 2. 2. Representar gr Representar gráficamente datos de variables categ ficamente datos de variables categóricas: Diagramas de Barras y ricas: Diagramas de Barras y Sectores. Sectores. 3. 3. Conocer y Calcular los estad Conocer y Calcular los estadísticos descriptivos de tendencia central, variabilidad, sticos descriptivos de tendencia central, variabilidad, forma y posici forma y posición. n. 4. 4. Representar gr Representar gráficamente datos de variables continuas: pol ficamente datos de variables continuas: polí gonos de frecuencias, gonos de frecuencias, histogramas, gr histogramas, gráfico de caja y bigotes, gr fico de caja y bigotes, gráfico de tallo y hojas. fico de tallo y hojas. 5. 5. Conocer la terminolog Conocer la terminologí a m a médica especifica en la que se aplican proporciones, tasas y dica especifica en la que se aplican proporciones, tasas y ratios. Calcular proporciones, tasas y ratios a partir de datos ratios. Calcular proporciones, tasas y ratios a partir de datos proporcionados. proporcionados.

Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

  • Upload
    cacatu

  • View
    257

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Departamento de Epidemiología, Medicina

Preventiva, Análisis crítico y Metodología de la

investigación

Universidad Católica de Valencia San Vicente Mártir

Facultad de Medicina

ESTADÍSTICA APLICADAOdontología (OD1)

Departamento de EpidemiologDepartamento de Epidemiologíía, a,

AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn

BIOESTADISTICA

� Tema 3: Estadística Descriptiva

Departamento de EpidemiologDepartamento de Epidemiologíía, a,

AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn

OBJETIVOS DEL TEMA:OBJETIVOS DEL TEMA:

1.1. Conocer como se produce la recopilaciConocer como se produce la recopilaci óón y tabulacin y tabulaci óón de los datos.n de los datos.

2.2. Representar grRepresentar gr ááficamente datos de variables categficamente datos de variables categ óóricas: Diagramas de Barras y ricas: Diagramas de Barras y

Sectores.Sectores.

3.3. Conocer y Calcular los estadConocer y Calcular los estad íísticos descriptivos de tendencia central, variabili dad, sticos descriptivos de tendencia central, variabili dad,

forma y posiciforma y posici óón. n.

4.4. Representar grRepresentar gr ááficamente datos de variables continuas: polficamente datos de variables continuas: pol íígonos de frecuencias, gonos de frecuencias,

histogramas, grhistogramas, gr ááfico de caja y bigotes, grfico de caja y bigotes, gr ááfico de tallo y hojas.fico de tallo y hojas.

5.5. Conocer la terminologConocer la terminolog íía ma méédica especifica en la que se aplican proporciones, tasas y dica especifica en la que se aplican proporciones, tasas y

ratios. Calcular proporciones, tasas y ratios a par tir de datos ratios. Calcular proporciones, tasas y ratios a par tir de datos proporcionados.proporcionados.

Page 2: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,

AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn

GuiGuióón:n:

1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptivastica descriptiva..

2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.

3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.

4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.

5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.

� Tema 3: Estadística Descriptiva

BIOESTADISTICA

¿¿CuCuáál es el campo de la estadl es el campo de la estadíística?stica?

La estadLa estadíística trata de la variabilidad de las situaciones de la vida stica trata de la variabilidad de las situaciones de la vida

cotidiana. Esta variabilidad implica incertidumbre.cotidiana. Esta variabilidad implica incertidumbre.

Se sabe que “fumar provoca cáncer”. Fumar no causa cáncer del mismo modo que al golpear una bola de billar con otra, ésta última se

mueva. Mucha gente fuma mucho durante mucho tiempo y no desarrolla cáncer. La formación de cáncer como consecuencia de

fumar no es una consecuencia invariable sino que ocurre sólo algunas veces. Los datos recogidos para examinar la asociación entre fumar y tener cáncer debe ser analizada reconociendo un resultado incierto y

variable.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 3: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

El campo de la EstadEl campo de la Estadíística tiene que ver con la stica tiene que ver con la

recopilacirecopilacióón, presentacin, presentacióón, ann, anáálisis y uso de lisis y uso de datosdatos

para tomar decisiones y resolver problemas.para tomar decisiones y resolver problemas.

Todos recibimos informaciTodos recibimos informacióón en forma de datos y a n en forma de datos y a

menudo es necesario menudo es necesario extraer conclusiones extraer conclusiones a partir de a partir de

la informacila informacióón contenida en los mismos.n contenida en los mismos.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Las herramientas de la estadLas herramientas de la estadíística tienen por objetivo el stica tienen por objetivo el

ayudarnos a generar, recopilar y analizar los datos ayudarnos a generar, recopilar y analizar los datos

referentes a un problema de interreferentes a un problema de interéés, con el fin de s, con el fin de

extraer la informaciextraer la informacióón n úútil til contenida en dichos datos.contenida en dichos datos.

El primer paso en el anEl primer paso en el anáálisis estadlisis estadíístico de los datos stico de los datos

consiste en la consiste en la descripcidescripcióónn de los mismos, de los mismos,

organizando la informaciorganizando la informacióón contenida de manera que n contenida de manera que

el usuario pueda aprehenderla con la mayor facilidad.el usuario pueda aprehenderla con la mayor facilidad.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 4: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

El El ananáálisis descriptivo lisis descriptivo consiste en la tabulaciconsiste en la tabulacióón de los n de los

datos, la generacidatos, la generacióón de unos pocos estadn de unos pocos estadíísticos sticos

capaces de capturar las principales caractercapaces de capturar las principales caracteríísticas de sticas de

los datos y la elaboracilos datos y la elaboracióón de grn de grááficos adecuados.ficos adecuados.

La descripciLa descripcióón de un conjunto de datos a travn de un conjunto de datos a travéés de un s de un

nnúúmero reducido de estadmero reducido de estadíísticos y representaciones sticos y representaciones

grgrááficas adecuadas se conoce como ficas adecuadas se conoce como EstadEstadíística stica

DescriptivaDescriptiva..

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

• Tablas• Gráficos• Estadísticos

•• TablasTablas•• GrGr ááficosficos•• EstadEstadíísticossticos

DatosDatos

DecisionesDecisiones

InformaciónInformación

Las herramientas de la estadística descriptiva (tablas, gráficos y estadísticos) nos ayudan a extraer la información “oculta” en los datos, asistiéndonos en la toma de decisiones.

Las herramientas de la estadística descriptiva (tablas, gráficos y estadísticos) nos ayudan a extraer la información “oculta” en los datos, asistiéndonos en la toma de decisiones.

EstadEstadíística Descriptivastica Descriptiva

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 5: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,

AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn

GuiGuióón:n:

1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptiva.stica descriptiva.

2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.

3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.

4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.

5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.

� Tema 3: Estadística Descriptiva

BIOESTADISTICA

¿¿CCóómo podemos representarlos de forma mo podemos representarlos de forma úútil?til?

¿¿CCóómo descubrir estructuras en un montmo descubrir estructuras en un montóón de datos desnudos?n de datos desnudos?

¿¿CCóómo resumir de forma bmo resumir de forma báásica los datos?sica los datos?

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 6: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Lo primero que necesitamos son unos cuantos datos Lo primero que necesitamos son unos cuantos datos para analizarpara analizar……... ...

Tema 3: Estadstadíística Descriptivastica Descriptiva

Se ha recogido una muestra de Se ha recogido una muestra de 82 estudiantes midiendo su peso 82 estudiantes midiendo su peso

en librasen libras

Sexo Peso (Libras) Sexo Peso (Libras)Hombre 140 Hombre 140Hombre 145 Hombre 145Hombre 160 Hombre 160Hombre 190 Hombre 190Hombre 155 Hombre 155Hombre 165 Hombre 165Hombre 150 Hombre 150Hombre 190 Hombre 190Hombre 195 Hombre 195Hombre 138 Hombre 138Hombre 160 Hombre 160Hombre 155 Hombre 155Hombre 153 Hombre 153Hombre 145 Hombre 145Hombre 170 Hombre 170Hombre 175 Hombre 175Hombre 175 Hombre 175Hombre 180 Hombre 180Hombre 135 Hombre 135Hombre 170 Hombre 170Hombre 157 Hombre 157Hombre 130 Hombre 130Hombre 185 Hombre 185Hombre 190 Hombre 190

BIOESTADISTICA

Esos datos se pueden resumir agrupando los Esos datos se pueden resumir agrupando los individuos en cada pesoindividuos en cada peso

Tema 3: Estadstadíística Descriptivastica Descriptiva

Peso (Libras) Cuenta de Peso (Libras)102 1108 2110 2112 1115 1116 2118 1120 3121 1123 1125 6130 4131 1133 1135 3136 1138 2140 3142 1145 5150 9153 1155 8157 1160 4164 1165 1170 2175 2180 3185 1190 4195 2215 1

Total general 82

Page 7: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Esos datos se pueden resumir aun mas convirtiendo el Esos datos se pueden resumir aun mas convirtiendo el peso en una variable categpeso en una variable categóórica (Categorrica (Categoríías de peso)as de peso)

Tema 3: Estadstadíística Descriptivastica Descriptiva

Categoria Estudiantes

<120 10

120-140 23

140-160 28

160-180 10

180-200 10

>200 1

Total general 82

BIOESTADISTICA

Esos datos se pueden resumir aun mas convirtiendo el Esos datos se pueden resumir aun mas convirtiendo el peso en una variable categpeso en una variable categóórica (Categorrica (Categoríías de peso)as de peso)

Tema 3: Estadstadíística Descriptivastica Descriptiva

Cat

egor

ia

Fre

cuen

cia

Abs

olut

a

Fre

cuen

cia

Abs

olut

a A

cum

ulad

a

Fre

cuen

cia

Rel

ativ

a

Fre

cuen

cia

Rel

ativ

a A

cum

ulad

a

<120 10 10 12,20% 12,20%120-140 23 33 28,05% 40,24%140-160 28 61 34,15% 74,39%160-180 10 71 12,20% 86,59%180-200 10 81 12,20% 98,78%

>200 1 82 1,22% 100,00%Total general 82 82 100,00% 100,00%

Page 8: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

•• Una tabla de frecuencia o distribuciUna tabla de frecuencia o distribucióón de frecuencias n de frecuencias

simple, muestra los resultados de la tabulacisimple, muestra los resultados de la tabulacióón de una n de una

serie de observaciones (frecuencia) en cada nivel o valor serie de observaciones (frecuencia) en cada nivel o valor

de la variable.de la variable.

•• Su aspecto no difiere para variables numSu aspecto no difiere para variables numééricas ricas

(discretas o continuas medidas en cualquier escala (discretas o continuas medidas en cualquier escala

(intervalo o raz(intervalo o razóón), las categn), las categóóricas o cualitativas (en ricas o cualitativas (en

escala nominal) o las ordinales.escala nominal) o las ordinales.

Tablas de frecuencias: DefiniciTablas de frecuencias: Definicióónn

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Tablas de frecuenciasTablas de frecuencias

Supongamos que conocemos el valor que toma una variable X Supongamos que conocemos el valor que toma una variable X

para cada uno de los n individuos de una poblacipara cada uno de los n individuos de una poblacióón. Si los I n. Si los I

posibles valores de la variable (modalidades) son {x1, x2, posibles valores de la variable (modalidades) son {x1, x2, ……, ,

xIxI}, definimos, para cada modalidad }, definimos, para cada modalidad xixi,,

Frecuencia absoluta ni: Frecuencia absoluta ni: NNºº de individuos con dicha modalidad.de individuos con dicha modalidad.

FrecuenciaFrecuencia absoluta acumulada Ni:absoluta acumulada Ni: nnºº de individuos con de individuos con

modalidad menor o igual a modalidad menor o igual a xixi y se calcula acumulando las y se calcula acumulando las

frecuencias absolutas hasta la ifrecuencias absolutas hasta la i--éésimasima, es decir, es decir……

Ni = n1 + n2 + Ni = n1 + n2 + …… + ni.+ ni.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 9: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Tablas de frecuenciasTablas de frecuencias

Frecuencia relativa Frecuencia relativa fifi:: es el cociente entre ni y n y se es el cociente entre ni y n y se

corresponde con la proporcicorresponde con la proporcióón de individuos que presentan la n de individuos que presentan la

modalidad modalidad xixi..

Frecuencia relativa acumulada Frecuencia relativa acumulada FiFi:: es el cociente entre Ni y n y es el cociente entre Ni y n y

se corresponde con la proporcise corresponde con la proporcióón de los individuos que n de los individuos que

presentan una modalidad menor o igual a presentan una modalidad menor o igual a xixi..

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Tablas de frecuencias. FTablas de frecuencias. Fóórmulasrmulas

Hay ni individuos, de un total de n, que verifican la modalidad xi

n

nf ii = ∑

=

=+++=i

jjii nnnnN

121 Λ

∑=

=+++=+++==i

jji

iii ffff

n

nnn

n

NF

121

21 ΛΛ

Frecuencia relativa Frecuencia absoluta acumulada

Frecuencia relativa acumulada

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 10: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

NotaciNotacióón para datos organizados (mn para datos organizados (máás frecuente)s frecuente)

xi ni Ni f i F i

34 2 2

35 6 8

36 7 15

37 7 22

38 12 34

… … …

n = Σni ,

f i= ni/n

la suma de todas las frecuencias observadas da la muestra de observación

El nº de observaciones en un valor de la variable dividida por total de observaciones da la proporción de observaciones en ese valor de la variable

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

En una encuesta realizada sobre una población de 1509 familias se ha tabulado, entre otras variables, el número de hijos, obteniéndose:

x i n i

0 4191 2552 3753 2154 1275 546 247 23>7 17

1509

N i

419674

1049126413911445146914921509

f i

0,2780,1690,2490,1420,0840,0360,0160,0150,011

F i

0,2780,4470,6950,8380,9220,9580,9730,9891,000

Hay 1264 familias con 3 o menos hijos.

El 24,9% de las familias tiene 2 hijos.

El 92,2% de las familias tiene 4 o menos hijos.

Para variables cuantitativas continuas, o discretas con un número elevado de modalidades, se agrupan estas en intervalos o clases, empleando la marca de clase (centro del intervalo) como valor representativo para todo el intervalo.

Tablas de frecuencias, datos sin agruparTablas de frecuencias, datos sin agrupar

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 11: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Procedimiento para agrupar datos (I)Procedimiento para agrupar datos (I)

1. ¿Cuántos intervalos debe haber?Está relacionado con el número de observaciones. Generalmente se

usan de 5 a 15, con un número menor para muestras pequeñas.

k = √n | k = log2n + 1,

donde n es el número de observaciones.

2. ¿Cuál es el rango de valores?

R = xmáx-xmín

3. ¿Cuál es la amplitud de los intervalos?

i = R / k

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Procedimiento para agrupar datos (II)Procedimiento para agrupar datos (II)

4. Cogemos el valor mínimo en la variable y redondeamos por abajo a un valor múltiplo de 10 óde 5, o similar.

5. Creamos los intervalos utilizando las siguientes notaciones

[ valor incluido, valor excluido[ ó [valor incluido, valor incluido]

[50-54], [55-59],… ó [50-55[,[55-60[

6. Contabilizamos el número de datos observados en cada intervalo de nuestra muestra de datos.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 12: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Tablas de frecuencias. Ejemplo ITablas de frecuencias. Ejemplo I

Variable cualitativa

Se observa el grupo sanguíneo para 20 pacientes afectados por cierta enfermedad, obteniéndose:

{A, A, AB, AB, O, A, B, A, A, O, A, A, AB, A, O, A, A, O, B, A}

x i n i f i

A 11 0,55O 4 0,20

AB 3 0,15B 2 0,10

20

• A falta de un orden numérico, para las variables cualitativas, es usual ordenar las modalidades por su frecuencia absoluta.

• El 55% de los pacientes tienen grupo sanguíneo A, el 20% O, el 15% AB y el 10% restante B.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Tablas de frecuencias. Ejemplo IITablas de frecuencias. Ejemplo II

Variable cuasicuantitativa

En una encuesta realizada en un hospital acerca de la satisfacción por el trato recibido durante el periodo de atención a 200 pacientes se ofrecen las siguientes respuestas {Muy Baja, Baja, Normal, Alta, Muy Alta}, obteniéndose los siguientes resultados:

x i n i

MB 8B 40N 52A 60

MA 40200

N i f i F i

8 0,04 0,0448 0,20 0,24

100 0,26 0,50160 0,30 0,80200 0,20 1,00

48 pacientes manifiestan una satisfacción Baja o Muy Baja.

El 26% de los pacientes manifiestan una satisfacción Normal.

El 50% de los pacientes manifiestan una satisfacción Normal, Baja o Muy Baja.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 13: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Tablas de frecuencias. Ejemplo IIITablas de frecuencias. Ejemplo IIIVariable cuantitativa

En una encuesta realizada sobre una población de 1509 familias se ha tabulado, entre otras variables, el número de hijos, obteniéndose:x i n i

0 4191 2552 3753 2154 1275 546 247 23>7 17

1509

N i

419674

1049126413911445146914921509

f i

0,2780,1690,2490,1420,0840,0360,0160,0150,011

F i

0,2780,4470,6950,8380,9220,9580,9730,9891,000

Hay 1264 familias con 3 o menos hijos.

El 24,9% de las familias tiene 2 hijos.

El 92,2% de las familias tiene 4 o menos hijos.

Para variables cuantitativas continuas, o discretas con un número elevado de modalidades, se agrupan estas en intervalos o clases, empleando la marca de clase (centro del intervalo) como valor representativo para todo el intervalo.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,

AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn

GuiGuióón:n:

1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptiva.stica descriptiva.

2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.

3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.

4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.

5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.

� Tema 3: Estadística Descriptiva

Page 14: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

AnAnáálisis de una variable categlisis de una variable categóórica:rica:

Los resultados de una variable categórica (p.ej.: tabaquismo) se pueden expresar en una tabla de frecuencias.

ni fi %

1: Nunca ha fumado 144 0,48 48

2: Exfumador/a 66 0,22 22

3: Fumador/a ocasional 9 0,03 3

4: Fumador/a diario 81 0,27 27

n=300 1

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

AnAnáálisis de una variable categlisis de una variable categóóricarica

ni fi %i

1: Nunca ha fumado 144 0,48 48

2: Exfumador/a 66 0,22 22

3: Fumador/a ocasional 9 0,03 3

4: Fumador/a diario 81 0,27 27

n=300 1 100

Σni= n

fi= ni / n

Σfi= 1

Tamaño total de la muestra

Proporción respecto al total de la muestra en una categoría i

%i= fi * 100Porcentaje respecto al total de la muestra en una categoría i

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 15: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICABIOESTADISTICA

RepresentaciRepresentacióón grn grááfica de los datosfica de los datos

Un segundo paso en el anUn segundo paso en el anáálisis estadlisis estadíístico de los datos, posterior a la tabla stico de los datos, posterior a la tabla

de frecuencias, lo constituye la presentacide frecuencias, lo constituye la presentacióón grn grááfica de los mismos, fica de los mismos,

eligiendo un greligiendo un grááfico adecuado a la naturaleza de los datos.fico adecuado a la naturaleza de los datos.

Variables cualitativasVariables cualitativas Los grLos grááficos mficos máás usuales para representar variables s usuales para representar variables

de tipo nominal son el de tipo nominal son el diagrama de barrasdiagrama de barras y el y el diagrama de sectoresdiagrama de sectores..

Variables cuantitativasVariables cuantitativas Para las variables cuantitativas tiene sentido Para las variables cuantitativas tiene sentido

calcular frecuencias acumuladas, por lo que distinguiremos entrecalcular frecuencias acumuladas, por lo que distinguiremos entre GrGrááficos ficos

Diferenciales, para frecuencias no acumuladas (absolutas o relatDiferenciales, para frecuencias no acumuladas (absolutas o relativas) y ivas) y

GrGrááficos Integrales, para frecuencias acumuladas (absolutas o relatficos Integrales, para frecuencias acumuladas (absolutas o relativas).ivas).

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICABIOESTADISTICA

RepresentaciRepresentacióón grn grááfica de los datosfica de los datos

Para Para variables discretasvariables discretas empleamos el empleamos el diagrama de barrasdiagrama de barras, como gr, como grááfico fico

diferencial, y una representacidiferencial, y una representacióón n ““en escaleraen escalera””, como diagrama integral., como diagrama integral.

Para Para variables continuasvariables continuas empleamos el empleamos el histogramahistograma y el poly el políígono de gono de

frecuencias, como grfrecuencias, como grááficos diferenciales, y el polficos diferenciales, y el políígono de frecuencias gono de frecuencias

acumuladas como gracumuladas como grááfico integral.fico integral.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 16: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

RepresentaciRepresentacióón de variables categn de variables categóóricasricas

La representaciLa representacióón de variables categn de variables categóóricas (nominales y ricas (nominales y

ordinales) se basa en dos tipos de grordinales) se basa en dos tipos de grááficos:ficos:

Diagrama de barras Diagrama de sectores

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

El diagrama de barrasEl diagrama de barras

•• Sirve para mostrar diversas Sirve para mostrar diversas

proporciones, frecuencias, porcentajes proporciones, frecuencias, porcentajes

y compararlos.y compararlos.

•• Situaciones:Situaciones:

–– Diversas variables dicotDiversas variables dicotóómicasmicas

Uso y contexto

Procedimiento•• Eje horizontal: se representan las diversas variables o categorEje horizontal: se representan las diversas variables o categoríías (alfabas (alfabééticamente, por ticamente, por

tamatamañño,o,……))

•• Eje vertical: se presentan las frecuencias (Eje vertical: se presentan las frecuencias (mmíínn hasta mhasta mááximo aprox.) o porcentajes (0ximo aprox.) o porcentajes (0--100)100)

•• Se dibujan las barras verticales encima de cada grupo de modo quSe dibujan las barras verticales encima de cada grupo de modo que la altura de la barra e la altura de la barra

represente (corresponder con un valor del eje vertical) la frecurepresente (corresponder con un valor del eje vertical) la frecuencia o porcentaje de ese grupo. encia o porcentaje de ese grupo.

Las barras deben ser igual de anchas y separadas entre sLas barras deben ser igual de anchas y separadas entre síí..

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 17: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

El diagrama de sectoresEl diagrama de sectores

•• Sirve para mostrar diversas Sirve para mostrar diversas

frecuencias, proporciones o frecuencias, proporciones o

porcentajes y compararlos.porcentajes y compararlos.

•• Representa la descomposiciRepresenta la descomposicióón de un n de un

totaltotal

•• Situaciones:Situaciones:

–– Una variable Una variable politpolitóómicamica

Uso y contexto

Procedimiento•• Para obtener el Para obtener el áángulo que cubre cada categorngulo que cubre cada categoríía de la variable se aplica una fa de la variable se aplica una fóórmula, que resulta rmula, que resulta

en diferentes en diferentes áángulos proporcionales a la frecuencia correspondiente:ngulos proporcionales a la frecuencia correspondiente:

n

nii

×= 360α

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

x i n i f i

A 11 0,55O 4 0,20

AB 3 0,15B 2 0,10

20

11

43

2

0

2

4

6

8

10

12

A O AB B

Diagrama de barras para variables cualitativasDiagrama de barras para variables cualitativas

La altura de la barra para cada La altura de la barra para cada

modalidad ha de ser modalidad ha de ser

proporcional a la frecuencia de proporcional a la frecuencia de

la misma.la misma.

Diagrama de sectores para variables cualitativasDiagrama de sectores para variables cualitativas

A55%

O20%

AB15%

B10%

A

O

AB

B

Se divide el cSe divide el cíírculo en sectores de modo que a cada rculo en sectores de modo que a cada

modalidad le corresponde un modalidad le corresponde un áángulo proporcional a su ngulo proporcional a su

frecuencia.frecuencia.

n

nii

×= 360α

20

º362B

º543AB

º724O

º19811A

αinixi

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 18: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,

AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn

GuiGuióón:n:

1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptiva.stica descriptiva.

2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.

3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.

4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.

5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.

� Tema 3: Estadística Descriptiva

BIOESTADISTICA

¿¿CCóómo podemos representarlos de forma mo podemos representarlos de forma úútil?til?

¿¿CCóómo descubrir estructuras en un montmo descubrir estructuras en un montóón de datos desnudos?n de datos desnudos?

¿¿CCóómo resumir de forma bmo resumir de forma báásica los datos?sica los datos?

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 19: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

RepresentaciRepresentacióón de variables cuantitativas continuasn de variables cuantitativas continuas

Desviación Típica = 0,3028

Desviación Típica = 1,5138

Desviación Típica = 3,0277

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

CCáálculo de Parlculo de Paráámetros Estadmetros Estadíísticossticos

El tercer paso en el anEl tercer paso en el anáálisis estadlisis estadíístico de los datos, posterior a la tabla de stico de los datos, posterior a la tabla de

frecuencias y a la elaboracifrecuencias y a la elaboracióón de grn de grááficos, lo constituye el cficos, lo constituye el cáálculo, a partir lculo, a partir

de los datos, de magnitudes capaces de capturar aspectos especde los datos, de magnitudes capaces de capturar aspectos especííficos de ficos de

la estructura de los mismos. Estos son los Parla estructura de los mismos. Estos son los Paráámetros Estadmetros Estadíísticos.sticos.

Los parLos paráámetros estadmetros estadíísticos tienen la virtud de condensar la informacisticos tienen la virtud de condensar la informacióón n

existente en los datos mediante unos pocos nexistente en los datos mediante unos pocos núúmeros que faciliten la meros que faciliten la

comprensicomprensióón de la estructura interna de los datos, su interpretacin de la estructura interna de los datos, su interpretacióón y su n y su

comunicacicomunicacióón a un tercero.n a un tercero.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 20: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Principales caracterPrincipales caracteríísticas de los datossticas de los datos

Tendencia central:Tendencia central: valores centrales representativos o en torno a valores centrales representativos o en torno a

los cuales se distribuyen los datos.los cuales se distribuyen los datos.

PosiciPosicióón:n: valores tales que un determinado porcentaje de valores valores tales que un determinado porcentaje de valores

queda por debajo de ellos.queda por debajo de ellos.

DispersiDispersióón: n: medida de lo alejados que estmedida de lo alejados que estáán los datos de un valor n los datos de un valor

en torno al cual se distribuyen.en torno al cual se distribuyen.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Principales caracterPrincipales caracteríísticas de los datossticas de los datos

SimetrSimetríía:a: medida de hasta que punto la distribucimedida de hasta que punto la distribucióón de los datos a un n de los datos a un

lado de un valor central es imagen especular de la del otro ladolado de un valor central es imagen especular de la del otro lado..

Apuntamiento:Apuntamiento: medida de hasta que punto algunos valores son mmedida de hasta que punto algunos valores son máás s

frecuentes que el resto.frecuentes que el resto.

ConcentraciConcentracióón: n: cuando la magnitud que se mide se considera como el cuando la magnitud que se mide se considera como el

resultado de un reparto las medidas de concentraciresultado de un reparto las medidas de concentracióón miden el grado n miden el grado

de equidad en el mismo.de equidad en el mismo.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 21: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Medidas de tendencia central: Media (AritmMedidas de tendencia central: Media (Aritméética)tica)

La La mediamedia es el pares el paráámetro de localizacimetro de localizacióón central n central mmáá usado con el objetivo de usado con el objetivo de

resumir un conjunto de datos a partir de un resumir un conjunto de datos a partir de un úúnico valor que en cierto modo sea nico valor que en cierto modo sea

representativo del conjunto de los valores de los datos.representativo del conjunto de los valores de los datos.

La media se La media se calculacalcula simplemente dividiendo el resultado de sumar todos los simplemente dividiendo el resultado de sumar todos los

datos por el ndatos por el núúmero de datos y su interpretacimero de datos y su interpretacióón es la de un valor central.n es la de un valor central.

La media se puede considerar como una especie de La media se puede considerar como una especie de centro de gravedadcentro de gravedad del del

conjunto de los datos, lo cual se puede visualizar suponiendo quconjunto de los datos, lo cual se puede visualizar suponiendo que se disponen e se disponen

los datos en una barra metlos datos en una barra metáálica recta, horizontal y con peso despreciable, lica recta, horizontal y con peso despreciable,

asignando a cada dato un mismo peso y tratando de imaginar en quasignando a cada dato un mismo peso y tratando de imaginar en que punto por e punto por

debajo de la barra habrdebajo de la barra habríía que situar un apoyo para que la barra se mantenga en a que situar un apoyo para que la barra se mantenga en

equilibrio.equilibrio.

Si el triSi el triáángulo se desplaza hacia la izquierda o hacia la derecha el equilngulo se desplaza hacia la izquierda o hacia la derecha el equilibrio se ibrio se rompe.rompe.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Intervalo[0, 3[[3, 5[[5, 7[

[7, 8,5[[8,5, 10[

Xi (MC)1,504,006,007,759,25

ni

10152010560

Xini

15,0060,00120,0077,5046,25318,755,3125

Variable continuaDatos agrupados en intervalos

Variable discretaDatos con valores repetidos

I

II

nn

nXnXX

++++=

ΛΛ

1

11

n

nXX

I

iii∑

== 1

Xi ni

0 21 52 103 124 65 1

36

Xini

052036245902,5

n

XXXX n+++= Λ21

CCáálculo de la medialculo de la media

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 22: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Media geomMedia geoméétricatrica

La usamos cuando tenemos observaciones de una poblaciLa usamos cuando tenemos observaciones de una poblacióón muy n muy

variables, o con distribuciones asimvariables, o con distribuciones asiméétricas positivas.tricas positivas.

Tenemos que transformar cada valor de la variable a un logaritmoTenemos que transformar cada valor de la variable a un logaritmo de de

base 10 base 10 óó e.e.

Se obtiene una media al uso con esa escala transformada y se obtSe obtiene una media al uso con esa escala transformada y se obtiene el iene el

antilogaritmo, ese resultado es la media geomantilogaritmo, ese resultado es la media geoméétrica.trica.

)loglog( 10 xantixg =n

xx

n

ii∑

== 110

10

loglog

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Media ponderadaMedia ponderada

La usamos cuando tenemos observaciones dentro de una variable quLa usamos cuando tenemos observaciones dentro de una variable que son e son

mmáás importantes que otras.s importantes que otras.

Se asocia un peso Se asocia un peso wiwi a cada valor de la variable, a cada valor de la variable, xixi, para reflejar la , para reflejar la

importancia que se da a esos valores.importancia que se da a esos valores.

=

==n

ii

n

i iiw

w

xwx

1

1

Supongamos que estamos interesados en determinar Supongamos que estamos interesados en determinar

la estancia de pacientes en los hospitales de un la estancia de pacientes en los hospitales de un

distrito, y conocemos la media de cada hospital. Para distrito, y conocemos la media de cada hospital. Para

calcular en el total del distrito podemos hacer uso de calcular en el total del distrito podemos hacer uso de

esta media, cogiendo como peso el total de pacientes esta media, cogiendo como peso el total de pacientes

de cada hospital.de cada hospital.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 23: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Medidas de tendencia central:Medidas de tendencia central:La ModaLa Moda

Llamaremos Llamaremos modamoda a cualquier ma cualquier mááximo relativo de la distribuciximo relativo de la distribucióón de n de

frecuencias, es decir, cualquier valor que posea una frecuencia frecuencias, es decir, cualquier valor que posea una frecuencia

mayor que su anterior y su posterior.mayor que su anterior y su posterior.

Es por tanto el valor Es por tanto el valor que mas se repiteque mas se repite dentro de la distribucidentro de la distribucióónn

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Intervalo M.C. ni c i h i

[0; 3[ 1,50 10 3,0 3,333[3; 5[ 4,00 15 2,0 7,5[5; 7[ 6,00 20 2,0 10

[7; 8,5[ 7,75 10 1,5 6,667[8,5; 10] 9,25 5 1,5 3,333

60

Medidas de tendencia central:Medidas de tendencia central:La ModaLa Moda

Para variables continuas, agrupadas en intervalos, puede asumirsPara variables continuas, agrupadas en intervalos, puede asumirse la moda como e la moda como la marca de clase del intervalo con mayor altura en el histogramla marca de clase del intervalo con mayor altura en el histograma (intervalo modal) a (intervalo modal) o, alternativamente, calcularse a partir de la expresio, alternativamente, calcularse a partir de la expresióón:n:

El subEl subííndice ndice ii corresponde al intervalo con mayor altura en el histograma.corresponde al intervalo con mayor altura en el histograma.

( ) ( )11

1

+−

−+−−+=

iiii

iiii hhhh

hhcLModa

( ) ( )86,5

667,6105,710

5,71025

=−+−

−+=Moda

De haber tomado la marca de clase del intervalo De haber tomado la marca de clase del intervalo

modal el resultado habrmodal el resultado habríía sido Moda = 6.a sido Moda = 6.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 24: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Medidas de tendencia central:Medidas de tendencia central:La medianaLa mediana

La mediana es el punto en que la

muestra, ordenada, se divide en dos

partes de igual tamaño.

El 50% de los datos está por encima

de la mediana y el otro 50% está por

debajo.

Si hay un número par de datos la

mediana es la media aritmética de

los dos datos centrales.

Si hay un número impar de datos la

mediana es el dato central.

La mediana es el punto en que la La mediana es el punto en que la

muestra, ordenada, se divide en dos muestra, ordenada, se divide en dos

partes de igual tamapartes de igual tamañño.o.

El 50% de los datos estEl 50% de los datos estáá por encima por encima

de la mediana y el otro 50% estde la mediana y el otro 50% estáá por por

debajo.debajo.

Si hay un nSi hay un núúmero par de datos la mero par de datos la

mediana es la media aritmmediana es la media aritméética de tica de

los dos datos centrales.los dos datos centrales.

Si hay un nSi hay un núúmero impar de datos la mero impar de datos la

mediana es el dato central.mediana es el dato central.

Si

No

Dada una muestra de nelementos, la ordenamos de menor a mayor.

Dada una muestra de nelementos, la ordenamos de menor a mayor.

¿n par ?¿n par ?

2

122~

++

=

ndato

ndato

X

+=2

1~ ndatoX

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Calculo de la medianaCalculo de la mediana

Ejemplo 1 (n par)

{5,8,9,15,25,40}

n = 6 datos ordenados.

Ejemplo 1 (n par)

{5,8,9,15,25,40}

n = 6 datos ordenados.

( ) ( )

122

1592

º4º3

2

126

26

~

=+=

+=

++

= datodatodatodato

X

Ejemplo 2 (n impar)

{5,8,9,15,25}

n = 5 datos ordenados.

Ejemplo 2 (n impar)

{5,8,9,15,25}

n = 5 datos ordenados. ( ) 9º32

15~ ==

+= datodatoX

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 25: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Calculo de la mediana con datos discretos repetidosCalculo de la mediana con datos discretos repetidos

Xi ni

0 21 52 103 124 65 1

36

Ni

2717293536

En total hay 36 datos, con lo que la mediana es la media de los datos 18º y 19º.

Tanto el dato 18º como el dato 19º son 3, con lo que la mediana vale 3.

En total hay 36 datos, con lo que la mediana es la media de los datos 18º y 19º.

Tanto el dato 18º como el dato 19º son 3, con lo que la mediana vale 3.

Los dos primeros datos son 0.

Desde el dato 3º hasta el 7º son 1.

Desde el dato 8º hasta el 17º son 2.

Desde el dato 18º hasta el 29º son 3.

Desde el dato 30º hasta el 35º son 4.

El dato 36º es 5.

( ) ( )3

2

33

2

º19º18~ =+=+= datodatoX

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

ComparaciComparacióón de la media y la mediana (I)n de la media y la mediana (I)

La media emplea todos los datos y es por tanto preferible si losLa media emplea todos los datos y es por tanto preferible si los datos son datos son

homoghomogééneos.neos.

La media es muy sensible a observaciones extremas, de manera queLa media es muy sensible a observaciones extremas, de manera que un error o un un error o un

valor anormal puede modificarla totalmente.valor anormal puede modificarla totalmente.

La mediana utiliza menos informaciLa mediana utiliza menos informacióón que la media, ya que sn que la media, ya que sóólo tiene en cuenta el lo tiene en cuenta el

orden de los datos.orden de los datos.

En general la mediana no se ve afectada por una observaciEn general la mediana no se ve afectada por una observacióón (o una pequen (o una pequeñña a

parte de las observaciones) contiene grandes errores de medida oparte de las observaciones) contiene grandes errores de medida o de trascripcide trascripcióón n

(es m(es máás robusta que la media).s robusta que la media).

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 26: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

ComparaciComparacióón de la media y la mediana (II)n de la media y la mediana (II)

En general es recomendable calcular tanto la media como la mediaEn general es recomendable calcular tanto la media como la mediana, ya que na, ya que

ofrecen informaciofrecen informacióón complementaria.n complementaria.

La media y la mediana diferirLa media y la mediana diferiráán mucho cuando la distribucin mucho cuando la distribucióón sea muy asimn sea muy asiméétrica trica

y coincidiry coincidiráán si los datos son simn si los datos son siméétricos.tricos.

Media < Mediana sugiere asimetrMedia < Mediana sugiere asimetríía negativa (cola a la izquierda).a negativa (cola a la izquierda).

Media > Mediana sugiere asimetrMedia > Mediana sugiere asimetríía positiva (cola a la derecha).a positiva (cola a la derecha).

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Uso de medidas de tendencia centralUso de medidas de tendencia central

•• No se pueden realizar operaciones con variables nominales, la mNo se pueden realizar operaciones con variables nominales, la media edia

ssóólo se puede calcular para variables numlo se puede calcular para variables numééricas (escala intervalo o ricas (escala intervalo o

razrazóón).n).

•• La mediana no requiere suma de observaciones, puede ser utilizaLa mediana no requiere suma de observaciones, puede ser utilizada da

con datos numcon datos numééricos y ordinales, pero no con datos nominales.ricos y ordinales, pero no con datos nominales.

•• La moda puede ser utilizada con cualquier variable.La moda puede ser utilizada con cualquier variable.

•• La media es afectada por valores extremos, la mediana no.La media es afectada por valores extremos, la mediana no.

•• Con datos distribuidos de forma simCon datos distribuidos de forma siméétrica, la media y la mediana trica, la media y la mediana

coinciden prcoinciden práácticamente.cticamente.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 27: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Medidas de posiciMedidas de posicióón: los Percentilesn: los Percentiles

•• La mediana divide los datos en La mediana divide los datos en dos partes igualesdos partes iguales (con el mismo (con el mismo

nnúúmero de datos).mero de datos).

•• TambiTambiéén se puede dividir los datos en n se puede dividir los datos en mmááss de dos partes.de dos partes.

•• Cuando se divide un conjunto ordenado de datos en Cuando se divide un conjunto ordenado de datos en cuatro partescuatro partes

iguales los 3 puntos de divisiiguales los 3 puntos de divisióón se conocen como n se conocen como cuartilescuartiles (Q1, Q2 y (Q1, Q2 y

Q3).Q3).

•• El El primer cuartilprimer cuartil, o cuartil inferior, Q1, es un valor que tiene , o cuartil inferior, Q1, es un valor que tiene

aproximadamente la cuarta parte de los datos (el 25%) por debajoaproximadamente la cuarta parte de los datos (el 25%) por debajo de de

éél, y el 75% restante por encima.l, y el 75% restante por encima.

•• El El segundo cuartilsegundo cuartil, Q2, tiene por debajo aproximadamente la mitad , Q2, tiene por debajo aproximadamente la mitad

de los datos (coincide con la mediana).de los datos (coincide con la mediana).

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

•• El El tercer cuartiltercer cuartil, o cuartil superior, Q3, es un valor que tiene , o cuartil superior, Q3, es un valor que tiene

aproximadamente el 75% de los datos por debajo de aproximadamente el 75% de los datos por debajo de éél, y el 25% l, y el 25%

restante por encima.restante por encima.

•• Si en lugar de dividir el conjunto de datos en 2 Si en lugar de dividir el conjunto de datos en 2 óó en 4 partes del en 4 partes del

mismo tamamismo tamañño se divide en o se divide en 100 partes100 partes los puntos de divisilos puntos de divisióón se n se

denominan denominan percentilespercentiles..

•• El percentil El percentil kk--éésimosimo se denota se denota PkPk..

•• Es evidente que tanto la mediana como los Es evidente que tanto la mediana como los cuartilescuartiles son casos son casos

particulares de los percentiles, con lo que sparticulares de los percentiles, con lo que sóólo necesitamos saber lo necesitamos saber

como se calculan los percentiles.como se calculan los percentiles.

251 PQ =502

~PXQ == 753 PQ =

Medidas de posiciMedidas de posicióón: los Percentiles (continuacin: los Percentiles (continuacióón)n)

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 28: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

CCáálculo del percentil klculo del percentil k--éésimosimo para variables discretaspara variables discretas

1.1. Calcular la posiciCalcular la posicióón: n: Pos = kPos = k××n / 100n / 100..

2.2. Si Pos Si Pos eses un un nnúúmeromero enteroentero PkPk eses el el promediopromedio de los de los datosdatos queque ocupanocupan laslasposicionesposiciones Pos y Pos+1Pos y Pos+1..

3.3. Si Pos Si Pos eses decimal, decimal, PkPk eses el el datodato queque ocupaocupa la la posiciposicióónn [Pos+1], con [ a ][Pos+1], con [ a ]indicandoindicando la parte la parte enteraentera de a.de a.

EjemploEjemplo Calcula los percentiles 5, 90 y 26 para los siguientes datos:

Xi ni Ni

0 2 21 6 82 10 183 13 314 6 375 3 40

40

Pos=5×40/100=2( ) ( )

5,02

10

2

º3º25 =+=+= datodato

P

Pos=90×40/100=36( ) ( )

42

44

2

º37º3690 =+=+= datodato

P

Pos=26×40/100=10,4 ( ) 2º1126 == datoP

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

CCáálculo del percentil klculo del percentil k--éésimosimo para variables continuaspara variables continuas

Intervalo n i N i

[0; 3[ 10 10[3; 5[ 15 25[5; 7[ 20 45

[7; 8,5[ 10 55[8,5; 10] 5 60

60

Para calcular el percentil kPara calcular el percentil k--éésimosimo, , PkPk, ,

seleccionamos el intervalo iseleccionamos el intervalo i--éésimosimo de manera de manera

que es el primer intervalo para el que Ni es que es el primer intervalo para el que Ni es

mayor o igual a mayor o igual a k k ×× n / 100n / 100..

i

i

iik n

Nk

ncLP

1100 −−+=

Extremo inferior del intervalo seleccionado.

Ancho del intervalo seleccionado.Nº de datos en el intervalo seleccionado.

Nº total de individuos.

Nº de datos acumulados antes del intervalo seleccionado.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 29: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Ejemplo de cEjemplo de cáálculo de percentiles con variables continuaslculo de percentiles con variables continuasCalcula la Calcula la medianamediana, el , el primer cuartilprimer cuartil y el y el percentil percentil

88 para los datos del peso de 57 nipara los datos del peso de 57 niñños.os.

Intervalo ni Ni

[10, 20[ 5 5[20, 30[ 19 24[30, 40[ 10 34[40, 50[ 13 47[50, 60[ 4 51[60, 70[ 4 55[70, 80] 2 57

57

i

i

iik n

Nk

ncLP

1100 −−+=

Mediana: Pos =57×50/100 = 28,5. Intervalo: [30; 40[

5,3410

2410050

571030

~50 =

−+== PX

Q1: Pos= 57×25/100 = 14,25. Intervalo: [20; 30[

9,2419

510025

571020251 =

−+== PQ

P8: Pos= 57×8/100 = 4,56. Intervalo: [10; 20[

12,195

01008

5710108 =

−+=P

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Medidas de DispersiMedidas de Dispersióónn

Consideramos las calificaciones de un examen para dos grupos de Consideramos las calificaciones de un examen para dos grupos de 10 alumnos:10 alumnos:

Es fEs fáácil comprobar que en ambos grupos la calificacicil comprobar que en ambos grupos la calificacióón media es 5, aunque se n media es 5, aunque se

distribuyen de forma muy diferente, ya que en el segundo grupo hdistribuyen de forma muy diferente, ya que en el segundo grupo hay mayor ay mayor

dispersidispersióón, mientras que en el primer grupo las calificaciones estn, mientras que en el primer grupo las calificaciones estáán mn máás s

concentradas (alrededor de la media).concentradas (alrededor de la media).

Las medidas de dispersiLas medidas de dispersióón sirven para medir la variabilidad de los datos n sirven para medir la variabilidad de los datos

alrededor de su alrededor de su ““centro de masascentro de masas”” (la media).(la media).

Grupo 10 1 2 3 4 5 6 7 8 9 10

Grupo 20 1 2 3 4 5 6 7 8 910

Grupo 1 5 3 5 6 4 6 6 5 6 4Grupo 2 1 2 9 1 8 7 7 2 9 4

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 30: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

El RangoEl Rango

•• Es la diferencia entre la mayor y la menor observaciEs la diferencia entre la mayor y la menor observacióón:n:

•• Es fEs fáácil de calcular, pero ignora casi toda la informacicil de calcular, pero ignora casi toda la informacióón de la muestra.n de la muestra.

•• Es muy sensible a valores extremos.Es muy sensible a valores extremos.

MinMaxR −=

Tema 3: Estadstadíística Descriptivastica Descriptiva

Medidas de DispersiMedidas de Dispersióónn

BIOESTADISTICA

Deficiencias:Deficiencias:

Ignora la mayor parte de observaciones, sIgnora la mayor parte de observaciones, sóólo se utilizan dos valores. lo se utilizan dos valores.

Se necesita un estadSe necesita un estadíístico que utilice mstico que utilice máás valores.s valores.

Su valor depende indirectamente del tamaSu valor depende indirectamente del tamañño de la muestra.o de la muestra.

No debe depender del tamaNo debe depender del tamañño de la muestrao de la muestra

El RangoEl Rango

Medidas de DispersiMedidas de Dispersióónn

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 31: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

El Rango El Rango IntercuartIntercuart íílicolico

•• Su definiciSu definicióón es ann es anááloga a la del Rango, pero eliminando la cuarta parte de loga a la del Rango, pero eliminando la cuarta parte de

los datos de cada extremo, despulos datos de cada extremo, despuéés de ordenar los datos de menor a s de ordenar los datos de menor a

mayor.mayor.

•• A partir de la definiciA partir de la definicióón es fn es fáácil ver que:cil ver que:

•• Es mEs máás difs difíícil de calcular que el rango, pero es menos sensible a valores cil de calcular que el rango, pero es menos sensible a valores

extremos.extremos.

13 QQRI −=

Tema 3: Estadstadíística Descriptivastica Descriptiva

Medidas de DispersiMedidas de Dispersióónn

BIOESTADISTICA

•• Se puede generalizar: Rango Se puede generalizar: Rango interquintinterquintíílicolico, , interdecinterdecíílicolico, , ……, o, en , o, en

general, para cualquier k en ]0, 50[, se puede definir:general, para cualquier k en ]0, 50[, se puede definir:

kkk PPR −= −100

GeneralizaciGeneralizacióón del Rango n del Rango IntercuartIntercuart íílicolico

Tema 3: Estadstadíística Descriptivastica Descriptiva

Medidas de DispersiMedidas de Dispersióónn

Page 32: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

La VarianzaLa Varianza

Dado un conjunto formado por n datos, la varianza es el promedioDado un conjunto formado por n datos, la varianza es el promedio de los de los

cuadrados de las distancias de los datos a la media:cuadrados de las distancias de los datos a la media:

( ) ( ) ( ) ( )n

nXX

n

nXXnXXnXX i

I

ii

In∑

=

−=−++−+−= 1

22

2

2

21

2

12 Λσ

Tema 3: Estadstadíística Descriptivastica Descriptiva

Medidas de DispersiMedidas de Dispersióónn

BIOESTADISTICA

La DesviaciLa Desviacióón Tn Tíípicapica

Las unidades de la varianza coinciden con las de los datos, peroLas unidades de la varianza coinciden con las de los datos, pero elevadas al elevadas al

cuadrado, por ello es mcuadrado, por ello es máás sencillo emplear la ras sencillo emplear la raííz cuadrada de la varianza, a la z cuadrada de la varianza, a la

que se denomina Desviacique se denomina Desviacióón Tn Tíípica.pica.

2σσ =La desviaciLa desviacióón tn tíípica verifica la propiedad de que en el intervalo pica verifica la propiedad de que en el intervalo

se encuentran al menos el 75% de los datos.se encuentran al menos el 75% de los datos.σ2±X

Tema 3: Estadstadíística Descriptivastica Descriptiva

Medidas de DispersiMedidas de Dispersióónn

Page 33: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

CCáálculo abreviado de la varianzalculo abreviado de la varianza

( ) ( )n

nXXnXnX

n

nXXnXnX

n

XXnI

iii

I

ii

I

iii

I

iiiiii

I

iii ∑∑∑∑∑

=====−+

=−+

=−

= 11

2

1

2

1

22

1

2

2

22σ

( )222 XX −=σLa varianza se puede calcular como la media de los cuadrados menos el cuadrado de la media.

La varianza se puede calcular como la media de los cuadrados menos el cuadrado de la media.

Xi ni

0 21 62 103 134 65 3

40

Xini

06203924151042,6

Xi2ni

064011796753348,35

n X 2X

( ) 59,16,235,8 22 =−=σ

261,159,1 ==σ

Varianza

Desviacióntípica

Para variables continuas agrupadas en intervalos se hace lo mismo, pero empleando las marcas de clase.

Para variables continuas agrupadas en intervalos se hace lo mismo, pero empleando las marcas de clase.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Uso conjunto de la media y la desviaciUso conjunto de la media y la desviacióón tn tíípicapica

A los conjuntos de datos unimodales y simétricos, o ligeramente asimétricos, les llamaremos datos normales (esto lo matizaremos posteriormente).

µµ–σ µ+2σ µ+3σµ–2σµ–3σ µ+σ

68%95%

99%

µ –3σ µµ –2σ µ +2σµ +σµ –σ µ +3σ

68%95%99%

–inf +inf······0,5%

······0,5% 13,5%2%

µ +σ µ +2σ µ +3σ34% 34% 13,5% 2%

µµ –σµ –2σµ –3σ

Para los conjuntos de datos normales se puede conocer, de manera aproximada, el porcentaje de datos que hay en intervalos de la forma:

[ ]σµσµσµ kkk +−≡± ;

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 34: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

El Coeficiente de VariaciEl Coeficiente de Variacióónn

Al estimar Al estimar ““a ojoa ojo”” una distancia cometemos un error de 1 m, una distancia cometemos un error de 1 m, ¿¿es un error muy es un error muy

grande?.grande?.

Imaginemos que la distancia que estImaginemos que la distancia que estáábamos estimando corresponde al ancho bamos estimando corresponde al ancho

de una habitacide una habitacióón y que el verdadero valor es de 4 m.n y que el verdadero valor es de 4 m.

¿¿Y si la distancia a estimar era la existente entre Madrid y ValeY si la distancia a estimar era la existente entre Madrid y Valencia?.ncia?.

El mismo problema que surge al comparar errores para magnitudes El mismo problema que surge al comparar errores para magnitudes diferentes diferentes

surge al comparar las desviaciones tsurge al comparar las desviaciones tíípicas de conjuntos de datos picas de conjuntos de datos

correspondientes a datos de diferente naturaleza o expresados encorrespondientes a datos de diferente naturaleza o expresados en diferentes diferentes

unidades.unidades.

Una posible soluciUna posible solucióón es eliminar la dimensionalidad de la desviacin es eliminar la dimensionalidad de la desviacióón tn tíípica pica

divididividiééndola por la media de los datos, obteniendo el llamado coeficienndola por la media de los datos, obteniendo el llamado coeficiente de te de

variacivariacióón.n.

XCV

σ=

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Puntuaciones TPuntuaciones Tíípicaspicas

•• En ocasiones queremos comparar dos valores siendo que vienen de En ocasiones queremos comparar dos valores siendo que vienen de conjuntos conjuntos

de datos diferentes. Esto sucede, por ejemplo, cuando queremos cde datos diferentes. Esto sucede, por ejemplo, cuando queremos comparar la omparar la

nota que hemos obtenido en Estadnota que hemos obtenido en Estadíística con la que hemos obtenido en stica con la que hemos obtenido en

InformInformáática.tica.

•• Supongamos que Remigio ha obtenido un 6 en EstadSupongamos que Remigio ha obtenido un 6 en Estadíística y un 8 en Informstica y un 8 en Informáática, tica,

¿¿podemos decir que tiene mpodemos decir que tiene máás ms méérito la nota de Informrito la nota de Informáática que la de tica que la de

EstadEstadíística por ser mayor?.stica por ser mayor?.

•• En realidad necesitamos medir la dificultad de cada asignatura pEn realidad necesitamos medir la dificultad de cada asignatura para poder ara poder

pronunciarnos.pronunciarnos.

•• Si la nota media en EstadSi la nota media en Estadíística para el grupo de Remigio es stica para el grupo de Remigio es µµEstEst = 4= 4 y la y la

desviacidesviacióón tn tíípica es pica es σσEstEst = 1= 1 Remigio ha obtenido una nota en EstadRemigio ha obtenido una nota en Estadíística que stica que

supera a la media en dos desviaciones tsupera a la media en dos desviaciones tíípicas, es decir, si los datos son picas, es decir, si los datos son

““normalesnormales”” Remigio supera, aproximadamente, al 97,5% de sus compaRemigio supera, aproximadamente, al 97,5% de sus compaññeroseros.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 35: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

•• Si la nota media en InformSi la nota media en Informáática es tica es µµInfInf = 6= 6 y la desviaciy la desviacióón tn tíípica es pica es σσInfInf = 2= 2

Remigio ha obtenido una nota en InformRemigio ha obtenido una nota en Informáática que supera a la media en una tica que supera a la media en una

desviacidesviacióón tn tíípica, es decir, si los datos son pica, es decir, si los datos son ““normalesnormales”” Remigio supera, Remigio supera,

aproximadamente, al 84% de sus compaaproximadamente, al 84% de sus compaññeros.eros.

•• En resumen, Remigio destaca mEn resumen, Remigio destaca máás por su nota en Estads por su nota en Estadíística (supera al 97,5% stica (supera al 97,5%

de sus compade sus compaññeros) que por su nota en Informeros) que por su nota en Informáática (supera al 84% de sus tica (supera al 84% de sus

compacompaññeros), pese a ser menor la primera que la segunda.eros), pese a ser menor la primera que la segunda.

•• Una forma de comparar valores procedentes de diferentes conjuntoUna forma de comparar valores procedentes de diferentes conjuntos de datos es s de datos es

indicar la posiciindicar la posicióón relativa de cada dato en relacin relativa de cada dato en relacióón a la media del conjunto del n a la media del conjunto del

que procede y medida en nque procede y medida en núúmero de desviaciones tmero de desviaciones tíípicas. A estos valores le picas. A estos valores le

llamaremos puntuaciones tllamaremos puntuaciones tíípicas.picas.

•• Dado un conjunto de datos con media Dado un conjunto de datos con media µµ y desviaciy desviacióón tn tíípica pica σσ, para un dato del , para un dato del

conjunto, x, definimos su puntuaciconjunto, x, definimos su puntuacióón tn tíípica, z, como:pica, z, como:

Puntuaciones TPuntuaciones Tíípicas (continuacipicas (continuacióón)n)

σµ−= x

z

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Un alumno se ha examinado de MatemUn alumno se ha examinado de Matemááticas y Estadticas y Estadíística, de manera que los stica, de manera que los resultados del alumno, junto a la media y la desviaciresultados del alumno, junto a la media y la desviacióón tn tíípica de cada asignatura, pica de cada asignatura, aparecen en la siguiente tabla:aparecen en la siguiente tabla:

Nota Alumno

Media de la clase

Desviación Típica

Matemáticas 8 7,5 2Estadística 6 4,2 0,75

¿En cuál de las dos pruebas ha obtenido el alumno mejor resultado, comparativamente con el resto de sus compañeros?

25,02

5,78 =−=Matz 40,275,0

2,46 =−=Estz

Puntuaciones TPuntuaciones Tíípicas (ejemplo)picas (ejemplo)

Vemos que, comparativamente con el resto de sus compaVemos que, comparativamente con el resto de sus compaññeros, el alumno eros, el alumno presenta un mayor rendimiento en Estadpresenta un mayor rendimiento en Estadíística que en Matemstica que en Matemááticas.ticas.

En MatemEn Matemááticas supera la media en 0,25 veces la desviaciticas supera la media en 0,25 veces la desviacióón tn tíípica y en Estadpica y en Estadíística stica la supera en 2,40 veces la desviacila supera en 2,40 veces la desviacióón tn tíípica.pica. Matemáticas

0,25Estadística

2,4

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 36: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Medidas de AsimetrMedidas de AsimetrííaaLa observaciLa observacióón de un histograma, un diagrama de barras o un diagrama de caja n de un histograma, un diagrama de barras o un diagrama de caja

son suficientes para apreciar lo simson suficientes para apreciar lo siméétricos o asimtricos o asiméétricos que son unos datos:tricos que son unos datos:

Una distribuciUna distribucióón de frecuencias es n de frecuencias es simsiméétricatrica si el lado derecho de la grsi el lado derecho de la grááfica es la fica es la

imagen especular del lado izquierdo.imagen especular del lado izquierdo.

Si las frecuencias del lado izquierdo son mSi las frecuencias del lado izquierdo son máás altas que las del derecho (cola a la s altas que las del derecho (cola a la

derecha) diremos que hay derecha) diremos que hay AsimetrAsimetríía Positivaa Positiva. En el caso opuesto (cola a la . En el caso opuesto (cola a la

izquierda) diremos que hay izquierda) diremos que hay AsimetrAsimetríía Negativaa Negativa..

Si una distribuciSi una distribucióón es simn es siméétrica: existe el mismo ntrica: existe el mismo núúmero de valores a la derecha mero de valores a la derecha

que a la izquierda de la media, con lo que la que a la izquierda de la media, con lo que la media coincidirmedia coincidiráá con la medianacon la mediana..

Simétrica Asimetría Positiva Asimetría Negativa

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Las distribuciones de frecuencias pueden clasificarse en:Las distribuciones de frecuencias pueden clasificarse en:

SimSiméétricas tricas --> valor de asimetr> valor de asimetríía, As. = 0a, As. = 0

AsimAsiméétricas positivas tricas positivas --> valor de asimetr> valor de asimetríía, As. > 0a, As. > 0

AsimAsiméétricas negativas tricas negativas --> valor de asimetr> valor de asimetríía, As. < 0a, As. < 0

Simétrica Asimetría Positiva Asimetría Negativa

cola a la derechacola a la izquierda

31

3)(.

sn

xxnAs

n

imii

−=∑

= Cuando es mayor en valor absoluto que 0,20 Cuando es mayor en valor absoluto que 0,20

podemos decir que es asimpodemos decir que es asiméétrica. trica.

Medidas de AsimetrMedidas de Asimetrííaa

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 37: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Si una distribuciSi una distribucióón es simn es siméétrica: Cada desviacitrica: Cada desviacióón positiva con respecto a la media n positiva con respecto a la media

coincidircoincidiráá con una desviacicon una desviacióón negativa de la misma magnitud.n negativa de la misma magnitud.

Medidas de AsimetrMedidas de Asimetríía (continuacia (continuacióón)n)

( )n

nxxI

iii∑

=

−1

Una primera idea para medir Una primera idea para medir

la asimetrla asimetríía podra podríía ser:a ser:

Elevar las diferencias a un exponente par tampoco es Elevar las diferencias a un exponente par tampoco es úútil, til,

porque perdemos el signo, con lo que la soluciporque perdemos el signo, con lo que la solucióón natural n natural

es elevar al cubo las diferencias, obteniendo el llamado es elevar al cubo las diferencias, obteniendo el llamado

momento central de tercer orden:momento central de tercer orden:

( )n

nxxm

I

iii∑

=

−= 1

3

3

Pero este estadPero este estadíístico siempre vale stico siempre vale

cero (por la definicicero (por la definicióón de media).n de media).

Para el momento central de orden 3 se comprueba facilmente que:

•Si m3 = 0 → la distribución es simétrica.

•Si m3 > 0 → la distribución tiene asimetría positiva.

•Si m3 < 0 → la distribución tiene asimetría negativa.

Para el momento central de orden 3 se comprueba Para el momento central de orden 3 se comprueba facilmentefacilmente que:que:

••Si m3 = 0 Si m3 = 0 →→ la distribucila distribucióón es simn es siméétrica.trica.

••Si m3 > 0 Si m3 > 0 →→ la distribucila distribucióón tiene asimetrn tiene asimetríía positiva.a positiva.

••Si m3 < 0 Si m3 < 0 →→ la distribucila distribucióón tiene asimetrn tiene asimetríía negativa.a negativa.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

El coeficiente de AsimetrEl coeficiente de Asimetríía de Fishera de Fisher

La medida de la asimetrLa medida de la asimetríía definida como m3 tiene un serio inconveniente: esta definida como m3 tiene un serio inconveniente: estáá

expresada en las mismas unidades que los datos, pero elevadas alexpresada en las mismas unidades que los datos, pero elevadas al cubo, por lo cubo, por lo

que serque seráá dependiente del cambio de escala.dependiente del cambio de escala.

Para conseguir un coeficiente adimensional se construye el coefiPara conseguir un coeficiente adimensional se construye el coeficiente de ciente de

asimetrasimetríía de Fisher que denotamos por g1:a de Fisher que denotamos por g1:

( )

( )23

1

2

1

3

33

1

==

=

=

n

nxx

n

nxx

mg

n

iii

n

iii

σ( )

( )( ) 2322

323

1

23

xx

xxxxg

+−=

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 38: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

CCáálculo del lculo del ÍÍ ndice de Asimetrndice de Asimetríía de Fishera de Fisher

X i n i

0 21 62 103 134 65 3

40

X i n i X i2 n i X i

3 n i

0 0 06 6 620 40 8039 117 35124 96 38415 75 375104 334 1.196

( )( )( ) 2322

323

1

23

xx

xxxxg

+−= ( ) 0389,06,235,8

6,226,235,839,29232

3

−=−

×+××−=

Para datos continuos agrupadas en intervalos se hace lo mismo, pero empleando las marcas de clase.

Para datos continuos agrupadas en intervalos se hace lo mismo, pero empleando las marcas de clase.

2,6 8,35 29,90

x 2x 3x

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Otras medidas de AsimetrOtras medidas de Asimetrííaa

Coeficiente de Karl Pearson

Para distribuciones campaniformes, unimodales y moderadamente asimétricas.

Se emplean dos medidas alternativas que son aproximadamente iguales:

Coeficiente de Karl Coeficiente de Karl PearsonPearson

Para distribuciones Para distribuciones campaniformescampaniformes, , unimodalesunimodales y moderadamente asimy moderadamente asiméétricas. tricas.

Se emplean dos medidas alternativas que son aproximadamente iguaSe emplean dos medidas alternativas que son aproximadamente iguales:les:

σModax

Ap

−= ( )σ

xxAp

~3 −=

Coeficiente de Yule BowleyCoeficiente de Yule Bowley

( ) ( )( )13

1223

QQ

QQQQAs −

−−−=

Coeficiente absoluto de asimetríaCoeficiente absoluto de asimetría

σ213 2QQQ

AB

−+=

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 39: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Medida del ApuntamientoMedida del Apuntamiento

Una vez determinada la simetrUna vez determinada la simetríía tiene intera tiene interéés saber si la distribucis saber si la distribucióón de n de

frecuencias es frecuencias es ““muy apuntadamuy apuntada”” o si es o si es ““muy aplastadamuy aplastada”” o, por si no se da ninguna o, por si no se da ninguna

de las dos situaciones.de las dos situaciones.

El patrEl patróón de referencia para discernir entre las dos situaciones mencionn de referencia para discernir entre las dos situaciones mencionadas lo adas lo

constituye la constituye la ““distribucidistribucióón normaln normal”” (m(máás adelante se tratars adelante se trataráá en detalle la en detalle la

distribucidistribucióón normal).n normal).

NormalAplastada Apuntada

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Medida del Apuntamiento: La Medida del Apuntamiento: La curtosiscurtosis

Para medir el apuntamiento emplearemos el coeficiente de aplastamiento de Fishero curtosis, que se define a partir de la expresión:

344

2 −=σ

γ m

( )n

nxxm

I

iii∑

=

−= 1

4

4

m4 es el momento central de cuarto orden:

A partir del valor de γ2 se clasifican las distribuciones de frecuencias como:

02 <γ

02 =γ

02 >γ Leptocúrtica: más apuntada que la normal.

Mesocúrtica: tan apuntada como normal.

Platicúrtica : menos apuntada que la normal.

Sólo se calculará la curtosis para distribuciones cuya simetría se haya constatado.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 40: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Curtosis o apuntamiento

Las distribuciones de frecuencias pueden clasificarse por su altura en:– Platicúrticas -> valor de curtosis, K < 0

– Mesocúrticas-> valor de curtosis, K = 0– Leptocúrticas-> valor de curtosis, K > 0

3)(

41

4

−⋅

−=∑

=

sn

xxnK

n

imii Cuando es mayor en valor absoluto que 0,20 podemos

decir que es asimétrica.

NormalAplastada Apuntada

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,

AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn

GuiGuióón:n:

1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptiva.stica descriptiva.

2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.

3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.

4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.

5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.

� Tema 3: Estadística Descriptiva

Page 41: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Diagrama de tallo y hojasDiagrama de tallo y hojas

68 63 42 27 30 36 28 32 79 2722 23 24 25 44 65 43 25 74 5136 42 28 31 28 25 45 12 57 5112 32 49 38 42 27 31 50 38 2116 24 69 47 23 22 43 27 49 2823 19 46 30 43 49 12

El diagrama de Tallo y Hojas es una representaciEl diagrama de Tallo y Hojas es una representacióón n úútil para til para variables variables

discretasdiscretas con un ncon un núúmero elevado de observaciones.mero elevado de observaciones.

En la siguiente tabla aparece el peso, En la siguiente tabla aparece el peso,

en libras, de 57 nien libras, de 57 niñños, con un peso os, con un peso

mmíínimo de 12 libras y un mnimo de 12 libras y un mááximo de ximo de

79 libras:79 libras:

Los datos aparecen segLos datos aparecen segúún han sido recogidos, es decir, no estn han sido recogidos, es decir, no estáán ordenados n ordenados

(el proceso ser(el proceso seríía un poco ma un poco máás sencillo si lo estuvieran).s sencillo si lo estuvieran).

El primer paso es decidir las ramas que se va a incluir, lo cualEl primer paso es decidir las ramas que se va a incluir, lo cual, en este caso es , en este caso es

sencillo, ya que al ser nsencillo, ya que al ser núúmeros de dos cifras se va a emplear la cifra de las meros de dos cifras se va a emplear la cifra de las

decenas como rama y la de las unidades como hoja, con o que tenedecenas como rama y la de las unidades como hoja, con o que tenemos 7 mos 7

ramas: {1,2,3,4,5,6,7}.ramas: {1,2,3,4,5,6,7}.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Diagrama de tallo y hojas (continuaciDiagrama de tallo y hojas (continuacióón)n)

68 63 42 27 30 36 28 32 79 2722 23 24 25 44 65 43 25 74 5136 42 28 31 28 25 45 12 57 5112 32 49 38 42 27 31 50 38 2116 24 69 47 23 22 43 27 49 2823 19 46 30 43 49 12

Para facilitar la legibilidad del Para facilitar la legibilidad del

diagrama se aconseja reordenar diagrama se aconseja reordenar

las hojas.las hojas.

1 :

2 :

3 :

4 :

5 :

6 :

7 :

883

2

83

26922

2334487583572857718

6218006128

2296742393539

0711

8395

94

ram

as

1 : 22269

2 : 1223334455577778888

3 : 0011226688

4 : 2223334567999

5 : 0117

6 : 3589

7 : 49

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 42: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Diagrama de tallo y hojas (continuaciDiagrama de tallo y hojas (continuacióón)n)

1 : 22269

2 : 1223334455577778888

3 : 0011226688

4 : 2223334567999

5 : 0117

6 : 3589

7 : 49

222

69

12233344

55577778888

001122

6688

2223334

567999

011

7

3

589

4

9

5

6

7

:

:

:

:

:

:

:

1

2

3

4

A veces se aprecia mejor como se distribuyen A veces se aprecia mejor como se distribuyen

los datos si se divide cada rama en dos, con las los datos si se divide cada rama en dos, con las

hojas {0, hojas {0, ……, 4} y {5, , 4} y {5, ……, 9}, respectivamente., 9}, respectivamente.

Este diagrama combina las caracterEste diagrama combina las caracteríísticas de un sticas de un

grgrááfico y los de una tabla, permitiendo recuperar los fico y los de una tabla, permitiendo recuperar los

datos originales.datos originales.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

GrGr ááficos para variables continuas: Histogramaficos para variables continuas: Histograma

Agrupamos los datos en intervalos [Li, Agrupamos los datos en intervalos [Li, UiUi[ y construimos un diagrama formado [ y construimos un diagrama formado

un rectun rectáángulo para cada intervalo, cuya ngulo para cada intervalo, cuya base es el intervalobase es el intervalo (en el eje de (en el eje de

abcisasabcisas) y cuya ) y cuya áárea es proporcional a la frecuenciarea es proporcional a la frecuencia del intervalo.del intervalo.

Si necesitamos un valor representativo para cada intervalo recurSi necesitamos un valor representativo para cada intervalo recurrimos a la rimos a la

Marca de Clase que es el valor central del intervalo: Marca de Clase que es el valor central del intervalo: xixi = (Li + = (Li + UiUi)/2)/2

La base de cada rectLa base de cada rectáángulo es la longitud del intervalo: ngulo es la longitud del intervalo: cici = = UiUi –– Li.Li.

Al ser el Al ser el áárea proporcional a la frecuencia de la clase, podemos calcular lrea proporcional a la frecuencia de la clase, podemos calcular la a alturaaltura

con la expresicon la expresióón: n: hihi = ni/ci= ni/ci..

Intervalo M.C. ni

[0; 3[ 1,50 12[3; 5[ 4,00 15[5; 7[ 6,00 20

[7; 8,5[ 7,75 9[8,5; 10] 9,25 12

c i

322

1,51,5

h i

4,07,5

10,06,08,0

iii LUc −=

i

ii c

nh =

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 43: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Intervalo M.C. ni c i h i

[0; 3[ 1,50 12 3 4,0[3; 5[ 4,00 15 2 7,5[5; 7[ 6,00 20 2 10,0

[7; 8,5[ 7,75 9 1,5 6,0[8,5; 10] 9,25 12 1,5 8,0

02468

1012

0 1 2 3 4 5 6 7 8 9 10

Tema 3: Estadstadíística Descriptivastica Descriptiva

GrGr ááficos para variables continuas: Histograma (II)ficos para variables continuas: Histograma (II)

BIOESTADISTICA

Se unen con lSe unen con lííneas rectas, en el histograma, los puntos neas rectas, en el histograma, los puntos

correspondientes a las marcas de clase. Para completar cada correspondientes a las marcas de clase. Para completar cada

extremo se aextremo se aññade un intervalo exterior, de la misma amplitud que ade un intervalo exterior, de la misma amplitud que

el extremo, y de altura nula.el extremo, y de altura nula.

0

2

4

6

8

10

-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12

Tema 3: Estadstadíística Descriptivastica Descriptiva

PolPolíígono Frecuencias Absolutasgono Frecuencias Absolutas

Page 44: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Es la poligonal definida en Es la poligonal definida en abcisasabcisas a partir de los extremos de los a partir de los extremos de los

intervalos y en ordenadas por alturas proporcionales a las intervalos y en ordenadas por alturas proporcionales a las

frecuencias absolutas acumuladas.frecuencias absolutas acumuladas.

Intervalo M.C. ni N i

[0; 3[ 1,50 12 12[3; 5[ 4,00 15 27[5; 7[ 6,00 20 47

[7; 8,5[ 7,75 9 56[8,5; 10] 9,25 12 68

0

12

27

4756

68

010203040506070

0,0 2,0 4,0 6,0 8,0 10,0

Tema 3: Estadstadíística Descriptivastica Descriptiva

PolPolíígono Frecuencias Acumuladasgono Frecuencias Acumuladas

BIOESTADISTICA

Uso del histograma con variables discretasUso del histograma con variables discretas

El histograma puede emplearse, de manera aproximada, para El histograma puede emplearse, de manera aproximada, para

variables discretas con un nvariables discretas con un núúmero elevado de observaciones.mero elevado de observaciones.

Lo ilustraremos con el ejemplo del peso de 57 niLo ilustraremos con el ejemplo del peso de 57 niñños.os.

Intervalo x i n i c i h i N i

[10, 20[ 15 5 10 0,5 5[20, 30[ 25 19 10 1,9 24[30, 40[ 35 10 10 1,0 34[40, 50[ 45 13 10 1,3 47[50, 60[ 55 4 10 0,4 51[60, 70[ 65 4 10 0,4 55[70, 80] 75 2 10 0,2 57

57

0

5

10

15

20

0 10 20 30 40 50 60 70 80 90

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 45: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

1 : 22269

2 : 1223334455577778888

3 : 0011226688

4 : 2223334567999

5 : 0117

6 : 3589

7 : 49

0

5

10

15

20

0 10 20 30 40 50 60 70 80 90

Comparativa Tallo y Hojas Comparativa Tallo y Hojas vsvs HistogramaHistograma

En las figuras se muestran juntas las dos representaciones En las figuras se muestran juntas las dos representaciones

grgrááficas para los datos del peso de 57 nificas para los datos del peso de 57 niñños.os.

Diagrama de Tallo y hojas Histograma

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

GrGr ááficos para variables continuas:ficos para variables continuas:El Diagrama de CajaEl Diagrama de Caja

El diagrama de caja (BoxEl diagrama de caja (Box--WhiskerWhisker) es una representaci) es una representacióón grn grááfica fica

que permite apreciar las principales caracterque permite apreciar las principales caracteríísticas de un conjunto sticas de un conjunto

de datos, sede datos, seññalando los datos analando los datos anóómalos.malos.

Q1 Q2 Q3

13 QQRI −=

Datos anómalos

Mayor dato no anómaloMenor dato no anómalo

( )135,1 QQ −×( )135,1 QQ −×

LI LS

25%25% 25%

25%

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 46: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

ConstrucciConstruccióón de un Diagrama de Caja (I)n de un Diagrama de Caja (I)

1.1. Ordenar los datos de menor a mayor, calculando el Ordenar los datos de menor a mayor, calculando el mmíínimonimo

((MinMin), el ), el mmááximoximo (Max), los (Max), los cuartilescuartiles (Q1, Q2 y Q3) y el (Q1, Q2 y Q3) y el rango rango

intercuartintercuartíílicolico, medido con la expresi, medido con la expresióón RI = Q3 n RI = Q3 –– Q1.Q1.

2.2. Dibujar un rectDibujar un rectáángulo cuyos extremos son Q1 y Q3 partido en ngulo cuyos extremos son Q1 y Q3 partido en

dos trozos por la mediana Q2.dos trozos por la mediana Q2.

Tema 3: Estadstadíística Descriptivastica Descriptiva

Para construir un diagrama de caja seguiremos los siguientes pasPara construir un diagrama de caja seguiremos los siguientes pasos:os:

BIOESTADISTICA

ConstrucciConstruccióón de un Diagrama de Caja (II)n de un Diagrama de Caja (II)

3.3. Calcular los Calcular los llíímites admisiblesmites admisibles superior e inferior (LS y LI) que servirsuperior e inferior (LS y LI) que serviráán para n para

identificar los posibles datos anidentificar los posibles datos anóómalos.malos.

LI = Q1 LI = Q1 –– 1,5RI1,5RI LS = Q3 + 1,5RILS = Q3 + 1,5RI

4.4. Considerar como Considerar como datos andatos anóómalosmalos los situados fuera del intervalo [LI, LS].los situados fuera del intervalo [LI, LS].

5.5. Dibujar una lDibujar una líínea (nea (whiskerwhisker o bigoteo bigote) que vaya desde cada extremo del ) que vaya desde cada extremo del

rectrectáángulo central hasta el valor mngulo central hasta el valor máás alejado no ans alejado no anóómalo.malo.

6.6. Identificar todos los datos anIdentificar todos los datos anóómalos, que son los que estmalos, que son los que estáán fuera del n fuera del

intervalo [LI, LS].intervalo [LI, LS].

Tema 3: Estadstadíística Descriptivastica Descriptiva

Para construir un diagrama de caja seguiremos los siguientes pasPara construir un diagrama de caja seguiremos los siguientes pasos:os:

Page 47: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Eslovaquia 0,4 Islandia 3,5 Noruega 8,6 Luxemburgo 17,7Turquia 0,6 Polonia 3,8 Grecia 8,7 Francia 24,3República Checa 0,8 Finlandia 4,8 Alemania 9,2 Italia 29,7Bulgaria 1,7 Malta 5,1 Irlanda 9,7 Letonia 31,5Croacia 2,1 Suecia 5,8 Bélgica 11,8 Suiza 32,1Lituania 2,5 Austria 6,8 Reino Unido 15,5 España 55,5Hungría 2,6 Dinamarca 7,1 Rumanía 15,7 Portugal 88,8Eslovenia 3,0 Estonia 7,4 Países Bajos 16,9

Ejemplo de construcciEjemplo de construccióón de un Diagrama de Cajan de un Diagrama de CajaSegSegúún el Centro Europeo para la Vigilancia Epidemioln el Centro Europeo para la Vigilancia Epidemiolóógica del SIDA, las Tasas de gica del SIDA, las Tasas de

SIDA en 31 paSIDA en 31 paííses europeos (nuevos casos por millses europeos (nuevos casos por millóón de habitantes) en el an de habitantes) en el añño o

2003, son las que aparecen en la siguiente tabla:2003, son las que aparecen en la siguiente tabla:

0,31 =Q

4,72 =Q

9,163 =Q

( ) 85,170,39,165,10,3 −=−×−=LI ( ) 75,370,39,165,19,16 =−×+=LS

… …

España Portugal

3,0 7,4 16,9 37,75

0,4 32,1

55,5 88,8

14=X

Nota: Los extremos del Nota: Los extremos del ““bigotebigote”” siempre deben contener un dato, no siempre deben contener un dato, no

confundir con los lconfundir con los líímites inferior y superior.mites inferior y superior.

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Ejemplo del uso de Diagramas de CajaEjemplo del uso de Diagramas de Caja

49,2OFT Quirurgica25,2NEF Medica15,5DIE Medica

43,2ACV Quirurgica24,8PED Medica15,0REU Medica

42,9ALG Medica24,6GER Medica14,4CPL Quirurgica

39,7NEM Medica22,7NCG Quirurgica13,9UMI Medica

35,0NER Medica21,8URO Quirurgica13,4ODO Quirurgica

33,7CAR Medica21,7CCA Quirurgica12,4ECR Medica

32,4DER Quirurgica20,5MDI Medica12,0UAT Medica

31,0COT Quirurgica19,6MIN Medica11,0HEM Medica

30,7USSRQuirurgica19,4GIN Quirurgica10,5CIR Quirurgica

29,5ORL Quirurgica19,2UDC Medica9,7CTO Quirurgica

29,1CMX Quirurgica18,9HTA Medica9,5CGI Quirurgica

27,9AO Quirurgica17,9PSQ Medica8,0ONC Medica

26,3UEI Medica16,9REH Medica0,5MPR Medica

En un hospital se ha medido el tiempo medio de espera, en meses,En un hospital se ha medido el tiempo medio de espera, en meses, en diferentes en diferentes servicios del servicios del áárea mrea méédica y del dica y del áárea quirrea quirúúrgica, obtenirgica, obteniééndose la siguiente tabla:ndose la siguiente tabla:

Tema 3: Estadstadíística Descriptivastica Descriptiva

Page 48: Tema 03 DaCuesta Estadistica Descriptiva Unidimensional

BIOESTADISTICA

Médica (22)

Quirúrgica (17)

Todas (39)

13,9

13,9

20,5 29,5

19,1 25,2

14,4 22,7 30,7

0,5 49,2

0,5 39,7

9,5 49,2

ALG42,9

ALG42,9

Ejemplo del uso de Diagramas de Caja (soluciEjemplo del uso de Diagramas de Caja (solucióón)n)

Tema 3: Estadstadíística Descriptivastica Descriptiva

BIOESTADISTICA

Uso comparativo del Diagramas de CajaUso comparativo del Diagramas de Caja

Tema 3: Estadstadíística Descriptivastica Descriptiva