Probabilidad y Estadística - frm.utn.edu.ar · Probabilidad y Estadística Unidad 1 Estadística...

Preview:

Citation preview

Probabilidad y Estadística

Unidad 1Estadística Descriptiva y

Análisis de Datos

www.frm.utn.edu.ar/estadistica Documentos de trabajo Enlaces 19 y 20

Introducción

2018

www.frm.utn.edu.ar/estadistica Documentos de trabajo Enlaces 19

3

Naturaleza de la Estadística

• W. Wilcox (1935) estudió más de un centenar de definiciones dadas de la Estadística. En casi todas se alude a:– unos datos u observaciones,– un razonamiento acerca de ellos,– y a unas conclusiones, fruto del razonamiento,– que se traducen en predicciones– a las que puede acompañar una regla o decisión

a tomar.

4

Estadística: definición

Barnett, (1973)

La Estadística es la ciencia queestudia cómo debe emplearse lainformación y cómo dar una guíade acción en situaciones prácticasque entrañan incertidumbre.

5

Capacidad vs. Pensamiento

• Capacidad estadística– Uso de herramientas– Orientada al consumidor de la Estadística– Lectura y comprensión de la información estadística

• El pensamiento estadístico ofrece instrumentos mentales simples pero no intuitivos para:– Desbaratar la masa de datos– Ordenar el “desorden”– Distinguir lo disparatado– Separar los pocos patrones relevantes de los muchos

irrelevantes

Estadístico

6

EstadísticoEnfoques del análisis

• Análisis Clásico– Parte de supuestos e hipótesis de los que

depende la confirmación de sus resultados• Estadística Descriptiva• Estadística Inferencial

• Análisis Exploratorio de Datos– Principios fundamentales, John Tukey

(1977)

7

Estadística Descriptiva

• Provee el método para:– Clasificar, ordenar, resumir y presentar los datos.– Utiliza números, tablas y gráficos (UT1-p4).– Calcula estadísticos basados, principalmente, en la

distancia y con datos centrados en la media.• Ejemplos• Se observa que la anestesia PERIBULBAR se empleó en el

13,8% del total de casos. Si el paciente es MUJER, dicho porcentaje es del 14,7%; si el paciente es HOMBRE es del 12,5%.

• El 85% de los trabajadores realizan sus tareas A GUSTO, el 13% NO OPINAN y el 2% lo hacen A DISGUSTO.

Clásica

8

Estadística InferencialMétodos para estimar o tomar decisiones respecto de una característica de la población, basados en la información de una muestra.

PoblaciónEs el conjunto de todos los posibles individuos, elementos u objetos de interés para el estudio.

MuestraEs un subconjunto o una parte de la población, que la representa.

9

Términos usualesPoblación

Muestra

Unidad de Análisis

Variables• X• Y• ...

Ilustración

10

Análisis Exploratorio de Datos

• Principios fundamentales, John Tukey (1977)• Además de los objetivos de la estadística

descriptiva:• Se inspira en una filosofía de carácter

práctica– Los datos son los que guían la selección de

modelos matemáticos.– El analista intenta develar el patrón y la estructura

que subyace en los datos.– Se minimiza la asunción de postulados

previamente definidos y altamente restrictivos.

Componentes (1)

11

Análisis Exploratorio de Datos

• Actitud frente al problema a investigar– Antes de cualquier análisis de datos, es necesario

un examen visual de los mismos.– Es preciso mirarlos, entenderlos y reflexionar

sobre ellos.

• Herramientas exploratorias– Importancia de las representaciones visuales y

gráficas.

• Apoyo informático– Sin apoyo informático es imposible explorar.

Componentes (2)

12

Variables

• Numéricas o cuantitativas– Discretas y continuas

• Escala de intervalo• Escala de razón

• No numéricas o cualitativas• Escala nominal• Escala ordinal

Tipos

13

VariablesTipos: UT1- INTRODUCCIÓN p11

www.frm.utn.edu.ar/estadistica Documentos de trabajo Enlace 19

Aplicaciones con Statgraphics

Exploración de Datos

Exploración de Datos

Patrón de comportamiento (UT1-p20)Descripción de un conjunto de datos (UT1-p26)

Base Datos: AlumnosPerfil del Grupo

www.frm.utn.edu.ar/estadistica Documentos de trabajo Enlace 20

16

Selección de Variables

• Sexo• Deporte• Ojos• Pelo• Estatura

• Calzado - Sexo• Calzado - Estatura

• Tratamiento de datos agrupados Ver documento UT1-p15

Piechart for SexoSexo

HM30,00%

70,00%

17

SexoSexo Frecuencia

AbsolutaFrecuencia Relativa

(proporción)Frecuencia Relativa

(porcentaje)

Hombres 18 0,30 30%

Mujeres 42 0,70 70%

Totales 60 1,00 100%

HM

Ver documento UT1-p23

18

Piechart for Deporte

Deporte123

25,00%

53,33%

21,67%

Deporte

perc

enta

ge

Barchart for Deporte by SexoSexo

HM

0

10

20

30

40

50

60

1 2 3

Deporte

Deporte Hombres Mujeres Totales

1. De vez en cuando 2 (3,3%) 13 (21,7%) 15 (25,0%)2. Una vez/semana 9 (15,0%) 23 (38,3%) 32 (53,3%)3. Dos o más/semana 7 (11,7%) 6 (10,0%) 13 (21,7%)Totales 18 (30%) 42 (70%) 60 (100%)

Ver documento UT1-p24; 60

19

Ojos y Pelo

Pelo Claro Pelo Oscuro Totales

Ojos Claros 17 (28,3%) 06 (10,0%) 23 (38,3%)

Ojos Oscuros 08 (13,4%) 29 (48,3%) 37 (61,7%)Totales 25 (41,7%) 35 (58,3%) 60 (100%)

Ojos

perc

enta

ge

Barchart for Ojos by PeloPelo

PCPO

0

10

20

30

40

50

OC OO

Ver documento UT1-p24

20

CalzadoHistogram for Calzado

Calzadope

rcen

tage

34 36 38 40 42 44 460

10

20

30

40

Density Trace for Calzado

Calzado

dens

ity

35 37 39 41 43 45 470

0,03

0,06

0,09

0,12

0,15

Ver documento UT1-p25; 61

21

Calzado - Sexo

VariablesSexo=HSexo=M

Density Traces

34 36 38 40 42 44 460

0,04

0,08

0,12

0,16

0,2

0,24

dens

ity

Box-and-Whisker Plot

34 36 38 40 42 44 46

Calzado

Sexo=H

Sexo=M

Ref.Rojo: MujerAzul: Hombre

Hombres

Mujeres

22

Estatura

Histogram for Estatura

Estatura

perc

enta

ge

150 160 170 180 190 2000

5

10

15

20

25

30

Density Trace for Estatura

150 160 170 180 190 200

Estatura

0

0,01

0,02

0,03

0,04

0,05

dens

ity

Box-and-Whisker Plot

150 160 170 180 190 200

Estatura

Medidas descriptivas

Datos = 60Mínimo = 155Máximo = 191Promedio = 168,5Mediana = 166,5Varianza = 70,7Desviación estándar = 8,4Coef. Variación = 5,0%Cuartil Inferior = 162Cuartil Superior = 174,5

(en centímetros)

Ver documento UT1-p25; 59

23

Calzado – Estatura - Sexo

Plot of Calzado vs Estatura

Estatura

Cal

zado

150 160 170 180 190 20034

36

38

40

42

44

46

Ref.Rojo: HombreAzul: Mujer

Exploración de DatosBase Datos IZ

25

Selección de Variables

• Sexo• Rango Edad

• SPHpre• SPH1d• SPH1m• SPH2m

26

SexoSexo Frecuencia

AbsolutaFrecuencia Relativa

(proporción)Frecuencia Relativa

(porcentaje)

Hombres 26 0,413 41,3%

Mujeres 37 0,587 58,7%

Totales 63 1,000 100,0%

Piechart for SEXOSEXO

FM

58,73%

41,27%HM

27

Barchart for RangoEDAD

percentage0 4 8 12 16 20 24

40-4445-4950-5455-5960-6465-6970-7475-79

Rango de EdadRangoEdad

Cant. Porcent.(%)

Porcent.Acum. (%)

40-44 1 1,7 1,7

45-49 3 5,0 6,7

50-54 11 18,3 25,0

55-59 14 23,3 48,3

60-64 10 16,7 65,0

65-69 13 21,7 86,7

70-74 7 11,7 98,3

75-79 1 1,7 100,0

28

EdadBox-and-Whisker Plot

EDAD42 52 62 72 82

Histogram for EDAD

EDAD

perc

enta

ge

42 52 62 72 820

5

10

15

20

25

Density Trace for EDAD

EDAD

dens

ity

42 52 62 72 820

0,01

0,02

0,03

0,04

0,05

Medidas descriptivas

Datos = 60Promedio = 60,5Mediana = 60,5Moda = 54,0Varianza = 59,2373Desviación estándar = 7,7Mínimo = 43Máximo = 78Rango = 35Cuartil Inferior = 54,5Cuartil Superior = 66,0Coef. Variación = 12,7%

29

Box-and-Whisker Plot

EDAD43 53 63 73 83

SEXO=H

SEXO=M

VariablesSEXO=HSEXO=M

Density Traces

dens

ity

43 53 63 73 830

0,01

0,02

0,03

0,04

0,05Ref.Azul: HombreRojo: Mujer

Hombres

Mujeres

SEXO=H

SEXO=Mpe

rcen

tage

41 51 61 71 8136

16

4

24

44Edad vs.

SexoHombres

Mujeres

30

SPHpreBox-and-Whisker Plot

SPHPre-10 -7 -4 -1 2 5 8

Histogram for SPHPre

SPHPre

perc

enta

ge

-10 -7 -4 -1 2 5 80

10

20

30

40

50

Density Trace for SPHPre

SPHPre

dens

ity

-10 -7 -4 -1 2 5 80

0,03

0,06

0,09

0,12

0,15

31

SPH1dBox-and-Whisker Plot

SPH1d-3 -2 -1 0 1 2 3

Histogram for SPH1d

SPH1d

perc

enta

ge

-3,3 -2,3 -1,3 -0,3 0,7 1,7 2,70

20

40

60

80

Density Trace for SPH1d

SPH1d

dens

ity

-3 -2 -1 0 1 2 30

0,1

0,2

0,3

0,4

0,5

32

SPH1mBox-and-Whisker Plot

SPH1m-0,8 -0,4 0 0,4 0,8 1,2 1,6

Histogram for SPH1m

SPH1m

perc

enta

ge

-0,8 -0,4 0 0,4 0,8 1,2 1,60

10

20

30

40

50

Density Trace for SPH1m

SPH1m

dens

ity

-0,8 -0,4 0 0,4 0,8 1,2 1,60

0,2

0,4

0,6

0,8

1

33

SPH2mBox-and-Whisker Plot

SPH2m-0,8 -0,4 0 0,4 0,8

Histogram for SPH2m

SPH2m

perc

enta

ge

-0,9 -0,6 -0,3 0 0,3 0,6 0,90

10

20

30

40

50

Density Trace for SPH2m

SPH2m

dens

ity

-0,8 -0,4 0 0,4 0,80

0,2

0,4

0,6

0,8

1

34

SPH MúltipleMeans and 95,0 Percent LSD Intervals

samplere

spon

seSPHpre SPH1d SPH1m SPH2m

-0,3

0,1

0,5

0,9

1,3

1,7

Box-and-Whisker Plot

response

sam

ple

SPHpre

SPH1d

SPH1m

SPH2m

-10 -8 -6 -4 -2 0 2 4 6 8

35

Scatterplot by Sample

resp

onse

sampleSPHpre SPH1d SPH1m SPH2m

-0,5

0,5

1,5

2,5

3,5

Means and 95,0 Percent LSD Intervals

sample

resp

onse

SPHpre SPH1d SPH1m SPH2m-0,8

-0,3

0,2

0,7

1,2

1,7

2,2

Box-and-Whisker Plot

response

sam

ple

SPHpre

SPH1d

SPH1m

SPH2m

-0,5 0 0,5 1 1,5 2 2,5 3 3,5

pre-1d-1m-2m

Para Rango Edad:60-64

SPH Múltiple

36

SPH1d MúltiplePor Rango Edad

Box-and-Whisker Plot

SPH1d

Ran

goED

AD

40-4445-4950-5455-5960-6465-6970-7475-79

-3 -2 -1 0 1 2 3

Means and 95,0 Percent LSD Intervals

RangoEDAD

SPH

1d

40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79-0,4

0,1

0,6

1,1

1,6

2,1

2,6

Medidas DescriptivasMedidas de Tendencia Central

Medidas de VariabilidadMedidas de PosiciónMedidas de Forma

38

Medidas Descriptivas

• Tendencia central (UT1-p27)– Media– Mediana– Moda

• Posición– Cuartiles– Percentiles– Puntuación Z

• Variabilidad o de Dispersión (UT1-p35)– Rango– Varianza– Desviación estándar– Coeficiente de

variación

• Forma– Simetría– Apuntamiento

39

Caso 1

0 101 2 3 4 5 6 7 8 9

Calificación en la escala del uno al diez

Interpretación física de la Media

Sistema de masas de datos

40

Caso 2

0 101 2 3 4 5 6 7 8 9

Calificación en la escala del uno al diez

Interpretación de la media

41

Caso 3

0 101 2 3 4 5 6 7 8 9

Calificación en la escala del uno al diez

Interpretación de la media

42

Interpretación física de la media

0 101 2 3 4 5 6 7 8 9

X: Calificación en la escala del uno al diez

1 1 1

E = 3

x

X

x1

x2

x3

Media: Posición de la Equilibrante del sistema de masas de datos(punto de equilibrio del sistema de masas de datos)

(1).(x1+x2+x3) = (3).X

3) M0 = 0

1

N

ii

X

x

N

Ecuaciones de equilibrio estático

(1).x1

2) FY = 0 E = 31) FX = 0

En caso más general será:(x1+x2+x3+...+xN) = N . X

+ (1).x2 + (1).x3 – (3).X = 0

43

Promedio o Media Aritmética

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

1

N

ii

X

x

N

12

1 612

ii

X

x

Media aritmética de una población de tamaño N

Calificación en la escala del uno al diez

44

Media:Interpretación y propiedades

• Punto de equilibrio del sistema de masas datos

• Representante del conjunto de datos• Valor comprendido entre el mínimo y

máximo• No siempre coincide con un valor

observado• Es única

45

Variabilidad – DispersiónRango = xmáx – xmín

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

R = 0

R = 2

R = 10

R = 10

R = 100 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

46

Rango

• Diferencia entre el valor máximo y el valor mínimo observado

• Es la más simple de las medidas de dispersión

• Sólo para datos numéricos• No nos cuenta sobre la distribución de los

datos dentro del mismo• Es único

47

Medición de la dispersión

0 101 2 3 4 5 6 7 8 9

Calificación en la escala del uno al diez

¿Cuánto se alejan los datos del punto de equilibrio?

48

Medición de la dispersión

0 101 2 3 4 5 6 7 8 9

La desviación respecto de la media como medida de dispersión

( )i Xx

Calificación en la escala del uno al diez

49

Inconvenientes de la desviación

1

( ) 0N

i Xi

x

La suma de las desviacionesrespecto de la media es

siempre igual a cero

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

Calificación en la escala del uno al diez

50

Varianza y Desviación Estándar

2

1( )

N

i Xi

X

x

N

2

2 1( )

X

N

i Xi

x

N

Varianza Poblacional:

Promedio de las desviaciones cuadráticas respecto de la media

Desviación Estándar Poblacional: Surge de la necesidad de volver a la unidad de medida de la variable en estudio

51

Para pensar ...• ¿Cuál es la estatura promedio de las

personas presentes?• ¿Cuál es la desviación estándar de la

estatura de las personas presentes?• Comparemos:

– Estatura de los adultos– Estatura de adolescentes (13 a 17 años)– ¿Cuál tiene mayor desviación estándar?

• Comparemos media y desviación estándar:– Estatura de los adultos– Estatura de las modelos de Pancho Dotto

52

Valores numéricos de

0X

0,71X

4,32X 0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

Calificación en la escala del uno al diez

53

Tabla: valores de# Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 Grupo 6 Grupo 8

1 6 5 5 5 5 5 52 6 6 5 5 5 5 53 6 6 6 5 5 5 54 6 6 6 6 5 5 55 6 6 6 6 6 5 56 6 6 6 6 6 6 57 6 6 6 6 6 6 78 6 6 6 6 6 7 79 6 6 6 6 7 7 7

10 6 6 6 7 7 7 711 6 6 7 7 7 7 712 6 7 7 7 7 7 7

Media = 6 6 6 6 6 6 6

DE Pob= 0 0,4082 0,5774 0,7071 0,8165 0,9129 1

54

Gráficos: valores de

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

0 101 2 3 4 5 6 7 8 9

55

Caso 4

0 101 2 3 4 5 6 7 8 9

Los datos, en promedio, ¿cuánto se alejan a un lado y al otro de la media?

56

Caso 5

0 101 2 3 4 5 6 7 8 9

Los datos, en promedio y aproximadamente, ¿cuánto se alejan a un lado y al otro de la media?

0 101 2 3 4 5 6 7 8 9

57

Interpretación de

0 101 2 3 4 5 6 7 8 9

Sistema real

7X 2,5X

0 101 2 3 4 5 6 7 8 9

2,5 2,5

Sistema equivalente

En ambos sistemas:

En promedio, las calificaciones se alejan de la media, 2,5 puntos

58

Resumen de fórmulas (Población)

1

N

ii

X

x

N

2

1( )

N

i Xi

X

x

N

Media Poblacional

Desviación Estándar Poblacional

Población de tamaño N

59

Resumen de fórmulas (Muestra)

1

n

ii

xX

n

2

1( )

1

n

ii

X

x XS

n

Media Muestral

Desviación Estándar Muestral

Muestra de tamaño n

60

Coeficiente de Variación UT1-p37 Medida de dispersión relativa Permite efectuar comparaciones entre

variables medidas en la misma unidad o en unidades de medida diferentes

Expresa la dispersión como proporción o porcentaje respecto de la media del conjunto de los datos

Fórmula de cálculo:X

X

X

CV

SCVX

Poblacional

Muestral

Capacidad estadística vs. Pensamiento estadístico

Análisis de la Variabilidad

62

Caso 1: Tiempos

• Variable en estudio:– Tiempo requerido para realizar una tarea

• Se desea comparar el tiempo empleado por un grupo de personas para realizar una tarea X, con el tiempo empleado por otro grupo de personas para realizar una tarea Y.– Desviación estándar (X): X = 0,04 min– Desviación estándar (Y): Y = 2880 min (dos días)

• ¿Qué tiempos están más dispersos, los de la tarea X o los de la tarea Y?

63

Caso 2: Derrames

• Variable en estudio:– Derrame Medio Anual (hm³)

• Se desea comparar el volumen de agua que anualmente aportan dos ríos, denominados genéricamente X e Y.– Desviación estándar (Río X): X = 546 hm³– Desviación estándar (Río Y): Y = 113.121 hm³

• ¿Cuáles son los derrames que están más dispersos, los del Río X o los del Río Y?

64

Caso 3: Estaturas y Pesos

• Variables en estudio:– Estatura (X) y Peso (Y)

• Se desea comparar las estaturas con los pesos de un grupo de personas, en términos de variabilidad.– Desviación estándar estaturas: X = 8,6 cm– Desviación estándar pesos: Y = 13,7 kg

• ¿Qué datos están más dispersos, las estaturas o los pesos de las personas del grupo?

65

Caso 4: Tiempos

• Variable en estudio:– Tiempo requerido para realizar una tarea

• Se desea comparar el tiempo empleado por los hombres (H) con el tiempo empleado por las mujeres (M) para realizar la misma tarea.– Desviación estándar (hombres): H = 4,69 min– Desviación estándar (mujeres): M = 1,70 min

• ¿Qué tiempos están más dispersos, los de los hombres o los de las mujeres?

Otras medidas de tendencia central

Mediana (Me) y Moda (Mo)

(UT1-p31)

67

Mediana

• Definición:– Es un valor de la variable que ocupa la posición

central en un conjunto ordenado de datos.• Determinación de la mediana:

– Si el número de observaciones es impar, es elvalor observado que ocupa la posición central de los datos, una vez que éstos han sido ordenados de manera creciente.

– Si el número de observaciones es par, se calcula como el promedio aritmético de las dos observaciones centrales, una vez que éstos han sido ordenados de manera creciente.

68

Determinación de la Mediana (1)

Orden200

200

200

200

400

450

650

800

5900

Me = 400

Media = 1000

Moda = 200

Orden de la mediana: 5º

Valor que ocupa la posición central

Observación

12

nMediana x x

Cuando el número de datos es IMPAR

69

Determinación de la Mediana (2)

Orden ObservaciónCuando el número de datos es PAR

200

200

200

400

450

650

800

5900

Mediana = Promedio de los valores centrales

Me = (400+450)/2 = 425

Media = 1100

Orden de la mediana:

Entre el 4º y 5º

12 2

2

n nx xx

70

Propiedades de la Mediana

• La mediana de un conjunto de datos es única• NO es sensible a la presencia de datos

apartados o valores extremos• En un conjunto de datos, la mitad de ellos son

iguales o menores que la mediana y la otra mitad son iguales o mayores que la mediana

71

Moda

• Definición:– Es el valor de las observaciones que aparece con

mayor frecuencia

• Propiedades de la Moda:– Se puede determinar tanto para datos numéricos

como para datos no numéricos– No se ve afectada por datos apartados o valores

extremos– La moda puede o no existir; cuando existe,

puede no ser única

72

Dificultades de la Moda

0 101 2 3 4 5 6 7 8 9

Calificación en la escala del uno al diez

Conjunto pequeño de datos

Media = 5,42

Moda = 10

Mediana = 5,5

Desviación estándar = 3,3

73

Histogram for Calzado

Calzado

perc

enta

ge

34 36 38 40 42 44 460

10

20

30

40

Histogram for ANTIG

ANTIG

perc

enta

ge

0 5 10 15 20 25 30 35 40 45 500

5

10

15

20

25

30

Clases Modales (datos agrupados)

Número de calzado

Antigüedad en la empresa

Medidas de Posición

Cuartiles y Percentiles (UT1-p42)Valor Z (UT1-p40)Gráfico de caja (UT1-p52)

75

Interpretación de los cuartiles

xmín = 1,1 xmáx = 9,9

Q1 = 2,2

Q2 = Me = 3,6 Q3 = 7,8

Rango Intercuartil: RI = Q3 – Q1

La cuarta parte de los datos asume valores iguales o inferiores a 2,2

Tres cuartas partes de los datos asume valores iguales o inferiores a 7,8

La mitad de los datos (dos cuartos) asume valores iguales o inferiores a 3,6

Se forman cuatro grupos con igual cantidad de datos

109876543210Escala graduada de la variable en estudio

76

Interpretación de los percentiles

xmín = 1,1 xmáx = 9,9

P25 = 2,2

P50 = Me = 3,6 P75 = 7,8

El 25% de los datos son iguales o inferiores a 2,2

El 75% de los datos son iguales o inferiores a 7,8

El 50% de los datos (la mitad) son iguales o inferiores a 3,6

Se forman cien grupos con igual cantidad de datos

109876543210Escala graduada de la variable en estudio

77

Para pensar ...El cuartil inferior, ¿puede resultar igual a la mediana?

1º 2º 3º 4º 5º 6º 7º 8º 9º 10º

1 5 5 5 5 5 5 5 7 9

1 9 7 5 7 7 5 5 5 5

El percentil 20, ¿puede resultar mayor que el cuartil superior?

1 5 5 5 5 5 7 7 7 9

1º 2º 3º 4º 5º 6º 7º 8º 9º 10º

Sofía Puertas

78

Valor Z• Ver UT1-p40• Describe la posición de un valor individual de la

variable en estudio, respecto de la media del grupo al cual pertenece.

• Indica a qué distancia de la media del grupo se encuentra, sea por encima (signo positivo) o por debajo de la misma (signo negativo), medida en unidades de desviación estándar.

• Fórmula de cálculo:xz

x xzS

Valor z (población)

Valor z (muestra)x z

79

Interpretación del Valor Z

• Un valor Z negativo– indica que la observación está por debajo de la

media

• Un valor Z positivo– indica que la observación está por encima de la

media

• Un valor Z igual a cero– ¿qué indica?

xz

x xzS

80

Y = X+1Y = X

L A GM

Transformación X Y

-3 -2 -1 0 1 2 3 4 5

y = x+1

-3 -2 -1 0 1 2 3 4 5

x L A GM

Y = 0-3 -2 -1 0 1 2 3 4 5

y = (x – Media)

L GM A

Y = X

X = 2

81

Transformación X W

-3 -2 -1 0 1 2 3 4 5

x L A GM

W = X / constante = 1W = X / constante = 1,08

-3 -2 -1 0 1 2 3 4 5

w = (x / constante)

L GAMconstante = 2

X = 2X = 2,16

82

Transformación X Z

-3 -2 -1 0 1 2 3 4 5

x L A GM

X = 2X = 2,16

L A GM

-3 -2 -1 0 1 2 3 4 5

y = (x – Media)

Y = 0

L A GM

-3 -2 -1 0 1 2 3 4 5

y = (x – Media)

Y = 0 Y = X = 2,16

Z = Y / sigma = 0Z = Y / sigma = 1

-3 -2 -1 0 1 2 3 4 5

z = y / constante

GAMconstante = sigma

Z = 0Z = 1Y = X

Lz = (x – Media) / sigma

Ilustración

Ver uso de EXCEL

Gráfico de Caja

Datos apartados: atípico y anómalos

Ver documento UT1-p52

85

Construcción del Gráfico de Caja

2 4 6 108 120 1 3 5 7 9 11Variable Numérica

+

atípicosREF2REF1 REF4REF3

anómalosatípicosanómalos

Datos apartados Datos apartados

Datos No Apartados

xmáxxmín

Q1

Q2=Me

Q3REF1 = Q1 – 3 RIREF2 = Q1 – 1,5 RIREF3 = Q3 + 1,5 RIREF4 = Q3 + 3 RI

86

Construcción del Gráfico de Caja

2 4 6 108 120 1 3 5 7 9 11Variable Numérica

+ +

Primer dato no apartado por debajo de la REF 3

atípicosREF2REF1 REF4REF3

anómalosatípicosanómalos

Datos apartados Datos apartados

Datos No Apartados

xmáxxmín

Q1

Q2=Me

Q3REF1 = Q1 – 3 RIREF2 = Q1 – 1,5 RIREF3 = Q3 + 1,5 RIREF4 = Q3 + 3 RI

87

Datos apartados en la distribución normal

Probabilidad de que un dato resulte anómalo = 0,0000023Probabilidad de que un dato resulte atípico = 0,007

Datos apartados Datos apartados

88

Ejemplos

G2G3

G4G5G6

G7G8

Box-and-Whisker Plot

3 4 5 6 7 8 9

response

sam

ple

G6 G7 G8

5 5 3

5 5 4

5 5 4

5 5 4

5 5 4

6 5 5

6 7 7

7 7 8

7 7 8

7 7 8

7 7 8

7 7 9

G5

5

5

5

5

6

6

6

6

7

7

7

7

G4

5

5

5

6

6

6

6

6

6

7

7

7

G3

5

5

6

6

6

6

6

6

6

6

7

7

G2

5

6

6

6

6

6

6

6

6

6

6

7

89

SPH MúltipleMeans and 95,0 Percent LSD Intervals

sample

resp

onse

SPHpre SPH1d SPH1m SPH2m-0,3

0,1

0,5

0,9

1,3

1,7

Box-and-Whisker Plot

response

sam

ple

SPHpre

SPH1d

SPH1m

SPH2m

-10 -8 -6 -4 -2 0 2 4 6 8

90

Antigüedad

Box-and-Whisker Plot

ANTIG0 10 20 30 40 50

Histogram for ANTIG

ANTIG

perc

enta

ge

0 5 10 15 20 25 30 35 40 45 500

5

10

15

20

25

30

Base Datos Empresa

Recommended