21
1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad. Modelos probabilísticos. Introducción a la inferencia estadística. Contrastes de hipótesis. Estadística I. Finanzas y Contabilidad

1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

Embed Size (px)

Citation preview

Page 1: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

1

Temario de la asignatura

• Introducción.

• Análisis de datos unívariantes.

• Análisis de datos bivariantes.

• Series temporales y números índice.

• Probabilidad.

• Modelos probabilísticos.

• Introducción a la inferencia estadística.

• Contrastes de hipótesis.

Estadística I. Finanzas y Contabilidad

Page 2: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

2

1. Representaciones y gráficos:Tabla de frecuencia absoluta / tabla de frecuencia relativa; Marginales; CondicionalesDiagrama de dispersion

2. Resumen numérico:CovarianzaCoeficiente de correlaciónRecta de regresión lineal

Lecturas recomendadas:

Capítulos 7 a 9 del libro de Peña y Romo (1997)

Tema 3: Análisis de datos bivariantes

Page 3: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

3

VARIABLES ESTADÍSTICAS BIDIMENSIONALES:X: x1, x2, ..., xN

(xi , yj) i=1, 2, …N; j=1,2, …M

Y: y1, y2, ..., yM

TABLAS SIMPLES:

Total bibl. NºBibl.Púb.

Andalucía 884 649

Aragón 318 227

Asturias 156 115

Baleares 188 128

Canarias 213 149

Cantabria 58 39

TABLAS DE DOBLE ENTRADA:

Y/X [5,7) [7,9) [9,11) [11,13)

[25,30) 4 3   1

[30,35) 2 7 2  

[35,40) 1 1 11 1

[40,45)   2   6

[45,50)       3

X=enciclopedia

Y=libros de bolsillo

(libros solicitados diariamente en la biblioteca de un IES)

3.1 Representaciones y gráficos

Page 4: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

4

TABLA DE FRECUENCIA ABSOLUTA:

Y/X [5,7) [7,9) [9,11) [11,13)  

[25,30) 4 3   1 8

[30,35) 2 7 2   11

[35,40) 1 1 11 1 14

[40,45)   2   6 8

[45,50)       3 3

  7 13 13 11 44

TABLA DE FRECUENCIA RELATIVA:

Y/X [5,7) [7,9) [9,11) [11,13)  

[25,30) 0.09 0.07   0.02  

[30,35) 0.05 0.16 0.05    

[35,40) 0.02 0.02 0.25 0.02  

[40,45)   0.05   0.14  

[45,50)       0.07  

          1

3.1.1 Tablas de frecuencias

Page 5: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

5

MARGINAL DE X: MARGINAL DE Y:

3.1.1 Tablas de frecuenciasTABLA DE FRECUENCIA ABSOLUTA:

Y/X [5,7) [7,9) [9,11) [11,13)  

[25,30) 4 3   1 8

[30,35) 2 7 2   11

[35,40) 1 1 11 1 14

[40,45)   2   6 8

[45,50)       3 3

  7 13 13 11 44

X ni fi

[5,7) 7 7/44

[7,9) 13 13/44

[9,11) 13 13/44

[11,13) 11 11/44

Y ni fi

[25,30) 8 8/44

[30,35) 11 11/44

[35,40) 14 14/44

[40,45) 8 8/44

[45,50) 3 3/44

Page 6: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

6

Supongamos que queremos restringirnos al valor Y=[25,30); mientras que la variableX sigue tomando todos sus valores.

En este caso tenemos las frecuencias condicionadas de X dado Y=[25,30).

3.1.1 Tablas de frecuenciasTABLA DE FRECUENCIA ABSOLUTA:

Y/X [5,7) [7,9) [9,11) [11,13)  

[25,30) 4 3   1 8

[30,35) 2 7 2   11

[35,40) 1 1 11 1 14

[40,45)   2   6 8

[45,50)       3 3

  7 13 13 11 44

X ni fi

[5,7) 4 4/8

[7,9) 3 3/8

[9,11) 0 0/8

[11,13) 1 1/8

Page 7: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

7

Ahora supongamos que queremos restringirnos al valor X=[7,9); mientras que la variable Y sigue tomando todos sus valores.

En este caso tenemos las frecuencias condicionadas de Y dado X=[7,9).

3.1.1 Tablas de frecuenciasTABLA DE FRECUENCIA ABSOLUTA:

Y/X [5,7) [7,9) [9,11) [11,13)  

[25,30) 4 3   1 8

[30,35) 2 7 2   11

[35,40) 1 1 11 1 14

[40,45)   2   6 8

[45,50)       3 3

  7 13 13 11 44

Y ni fi

[25,30) 3 3/13

[30,35) 7 7/13

[35,40) 1 1/13

[40,45) 2 2/13

[45,50) 0 0/13

Page 8: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

8

Andalucía 884 649Aragón 318 227Asturias 156 115Baleares 188 128Canarias216 149Cantabria 58 39CastiLeón 500 304CastiMan 412 342Catalunya 893 468Valencia 636 474Extremadura 354 308Galicia 444 282Madrid 720 321Murcia 127 85Navarra 116 81Euskadi 435 285Rioja 35 23Ceuta-Meli 32 21

1ªcolumna: Comunidad Autónoma

2ªcolumna: Total de bibliotecas

3ªcolumna: Nº bibliotecas públicas

3.1 Representaciones y gráficos

Page 9: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

9

N bibli

N bibli pub

freq

uenc

y

0 200 400 600 800 10008

4

0

4

8

Box-and-Whisker Plot

0 200 400 600 800 1000

N bibli

N bibli pub

3.1.2 Gráficos

Page 10: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

10

Plot of N bibli pub vs N bibli

0 200 400 600 800 1000

N bibli

0

200

400

600

800

N bibli

pub

3.1.2 Gráficos

DIAGRAMA DE DISPERSIÓN

Page 11: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

11

Notas de 10 alumnos/as en matemáticas y lenguaje

Alumno/a 1 2 3 4 5 6 7 8 9 10Matem 6 4 8 5 3,5 7 5 10 5 4Lengua 6,5 4,5 7 5 4 8 7 10 6 5

3.2 Resumen numérico

0

2

4

6

8

10

12

0 2 4 6 8 10 12

Matemáticas

Le

ng

ua

Page 12: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

12

3.2.1 Covarianza y correlación

La covarianza mide la fuerza de la relación lineal entre dos variables

La covarianza muestral puede calcularse mediante:

Una alta covarianza no implica efecto causal

n

i ii 1

xy

(x x)(y y)Cov (x,y) s

n

Page 13: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

13

3.2.1 Covarianza y correlación

La covarianza entre dos variables:

Cov(x,y) > 0: X e Y tienden a moverse en la misma dirección

Cov(x,y) < 0: X e Y tienden a moverse en direcciones opuestas.

Cov(x,y) = 0: X e Y no están relacionadas linealmente.

INTERPRETACIÓN DE LA COVARIANZA

Page 14: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

14

COVARIANZA XYS XY XY

Relación lineal entre variables cuantitativas

Dato Xi Yi Xi * Yi Xi^2 Yi^2

1 6 6,5 39 36 42,25

2 4 4,5 18 16 20,25

3 8 7 56 64 49

4 5 5 25 25 25

5 3,5 4 14 12,25 16

6 7 8 56 49 64

7 5 7 35 25 49

8 10 10 100 100 100

9 5 6 30 25 36

10 4 5 20 16 25

Suma 57,5 63 393 368,25 426,5

3.2.1 Covarianza y correlación

Page 15: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

15

-11 =-1: asociación lineal positiva perfecta =1: asociación lineal negativa perfecta =0: no existe relación lineal: Incorreladas0<<1: relación lineal positiva-1<<0: relación lineal negativa

Inconvenientes de la COVARIANZA:

Depende de las unidades de medida.

¿Qué es pequeño o grande en covarianza?

COEFICIENTE DE CORRELACIÓN:

3.2.1 Covarianza y correlación

YX ss

y),(xCovr

Page 16: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

16

3.2.1 Covarianza y correlación

Y

X

Y

X

Y

X

Y

X

Y

X

r = -1 r = -.6 r = 0

r = +.3r = +1

Y

Xr = 0

Page 17: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

17

0

2

4

6

8

10

12

0 2 4 6 8 10 12

Matemáticas

Le

ng

ua

3.2.1 Covarianza y correlación

r = 0,92, por tanto existe una alta relación entre las calificaciones de ambas materias

Los estudiantes que obtienen buenas notas en Matemáticas tienden a obtenerlas en Lengua

Page 18: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

18

(x1, y1), (x2, y2),...,(xn, yn) : n pares de puntos observados

Hemos de encontrar una recta: y = α + β x que se ajuste “lo mejor

posible” a nuestros puntos:

3.2 Resumen numérico

Recta de regresión lineal

Page 19: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

19

3.2.2 Recta de regresión lineal

Estimadores para los coeficientes α and β pueden calcularse minimizando la suma de cuadrados de los residuos

La recta de mínimos cuadrados es:

Donde b es la pendiente de la recta y a es el intercepto:

y a bx

y

2xx

sCov(x,y)b r

ss a y b x

Page 20: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

20

3.2.2 Recta de regresión lineal

Recta de regresión lineal

  Coeficientes

Intercepción 1,60066445

Variable X 1 0,81727575

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,92142

Coeficiente de determinación R^2 0,84902

R^2 ajustado 0,83015

Error típico 0,74739

Observaciones 10

Y = 1,60 + 0,81 X

Page 21: 1 Temario de la asignatura Introducción. Análisis de datos unívariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad

21

3.2.2 Recta de regresión lineal

Y = 1,60 + 0,81 X

• ¿Cómo interpretarías al parámetro a = 1,60?

• ¿Cómo interpretaría el parámetro b = 0,81?

• ¿Cuál es la predicción de la nota en Lengua de un estudiante que obtenga 5 puntos en Matemáticas?