38
Capítulo 1 Capítulo 1 Introducción Introducción II- 2001 II- 2001

Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Embed Size (px)

Citation preview

Page 1: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Capítulo 1 Capítulo 1 IntroducciónIntroducción

II- 2001II- 2001

Page 2: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

¿ Qué es la estadística ?¿ Qué es la estadística ? Ciencia dedicada al estudio sistemático de los datosTransforma datos en informaciónContribuye a la generación de conocimiento

Historia de la estadística :Historia de la estadística : Como ciencia de Estado (2600 A.C.) Como cálculo de probabilidades (siglo XVIII)

Rol de la estadística :Rol de la estadística : Proporcionar métodos para evaluar y juzgar la teoría y la realidad

Page 3: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

USOSUSOS Ciencias naturales Ciencias económicas Ciencias políticas y sociales Ciencias médicas etc.

ABUSOSABUSOS Encuestas de opinión Índices económicos Pronósticos

Page 4: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

La Estadística en la era de la InformaciónDestrezas lectoras para la sociedad del

Conocimiento

EL PENSAMIENTO ESTADÍSTICOEL PENSAMIENTO ESTADÍSTICO

El pensamiento estadístico algún día seráparte del ciudadano eficiente, y tan necesario

como la habilidad para leer y escribir

W. H. WELLSW. H. WELLS

Page 5: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

HECHOSHECHOS

DATOSDATOS

TEORÍASTEORÍAS

MODELOSMODELOS

FENÓMENOSFENÓMENOS

INTUICIONESINTUICIONES

Page 6: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Cómo diseñar un equipo de Cómo diseñar un equipo de mantenimientomantenimiento

Cómo aumentar el Cómo aumentar el rendimiento de un procesorendimiento de un proceso

MODELO VariablesVariables::- Número de averías (- Número de averías (xx11))

- Tiempo reparación (- Tiempo reparación (xx22))

HipótesisHipótesis:: las averías las averías•Se producen Se producen independientementeindependientemente•La probabilidad de no La probabilidad de no avería disminuye avería disminuye exponencialmente con el exponencialmente con el tiempotiempoHipótesis:Hipótesis:tiempo reparacióntiempo reparación•Depende de muchos Depende de muchos pequeños factorespequeños factores

Dos ejemplos de investigaciones estadísticasDos ejemplos de investigaciones estadísticasDos ejemplos de investigaciones estadísticasDos ejemplos de investigaciones estadísticas

PREGUNTA

VariablesVariables::- Rendimiento en % (- Rendimiento en % (yy))- Temperatura - Temperatura xx11

- Concentración - Concentración xx22

HipótesisHipótesis:: •El rendimiento aumenta en El rendimiento aumenta en promedio linealmente con la promedio linealmente con la temperatura y la temperatura y la concentraciónconcentración•Para valores fijos de Para valores fijos de xx11 y y xx22

el rendimiento varía el rendimiento varía aleatoriamente alrededor de aleatoriamente alrededor de su valor mediosu valor medio

Page 7: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

RECOLECCIÓN DE INFORMACIÓN

Muestreo de máquinas para estudiar sus averías y tiempo de reparación

Diseño de un experimento que se varíen x1 y x2 y se mida y

ESTIMACIÓN PARÁMETROS

Estimar:• , tasa media de averías• , tiempo medio de reparación• , variabilidad en el tiempo de reparación

Estimar:• El efecto de la temperatura (b) y el de la concentración (c) sobre el rendimiento•Variabilidad experimental

CONTRASTES DE SIMPLIFI-CACIÓN

¿Tienen todos los tipos de máquinas el mismo ?¿Los tipos de averías, el mismo y ?

¿Es el efecto de la temperatura y concentración idéntico (b=c ) ?

CRÍTICA DEL MODELO

¿Es cierta la independencia entre las averías?¿Son la variabilidad de x1 y x2 en la muestra consistentes con las hipótesis ?

¿Es la relación entre y (x1 , x2) lineal?¿Es la variabilidad de y para x1, x2 fijos, independ. de los valores concretos de x1, x2 ?

Page 8: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Problema realProblema realProblema realProblema real

Depuración de los datosDepuración de los datos(Análisis de datos)(Análisis de datos)

Depuración de los datosDepuración de los datos(Análisis de datos)(Análisis de datos)

Estimación de los parámetrosEstimación de los parámetros(Teoría de la estimación)(Teoría de la estimación)

Estimación de los parámetrosEstimación de los parámetros(Teoría de la estimación)(Teoría de la estimación)

Modelos EstadísticosModelos Estadísticos(Cálculo de probabilidades)(Cálculo de probabilidades)

Modelos EstadísticosModelos Estadísticos(Cálculo de probabilidades)(Cálculo de probabilidades)

Planteamiento del problemaPlanteamiento del problemaObjetos y mediosObjetos y medios

Planteamiento del problemaPlanteamiento del problemaObjetos y mediosObjetos y medios

Recolección de información muestralRecolección de información muestral(Técnicas de muestreo ; diseño de experimentos)(Técnicas de muestreo ; diseño de experimentos)

Recolección de información muestralRecolección de información muestral(Técnicas de muestreo ; diseño de experimentos)(Técnicas de muestreo ; diseño de experimentos)

Page 9: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Contrastes de SimplificaciónContrastes de Simplificación(Contrastes de hipótesis)(Contrastes de hipótesis)

Crítica y Diagnosis del ModeloCrítica y Diagnosis del Modelo(Análisis de datos)(Análisis de datos)

Nuevo Conocimiento Nuevo Conocimiento

PrevisionesPrevisiones DecisionesDecisiones

Page 10: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

La estadística en el nuevo mundo:La estadística en el nuevo mundo:

Era Industrial Era de la informaciónEra Industrial Era de la informaciónGestión del ConocimientoGestión del Conocimiento

DatosDatosEstadísticaEstadísticaEstadísticaEstadística

Información

Problemas que resuelve la Estadística :Problemas que resuelve la Estadística :

• Análisis de datos (Data Mining)• Verificación de hipótesis (DSS)• Patrones de Reconocimiento • Procesamiento de Imágenes

Page 11: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

MuestreoMuestreo

Costo reducidoCosto reducido Mayor rapidezMayor rapidez Mayor posibilidad (Sistemas complejos)Mayor posibilidad (Sistemas complejos)

APLICACIONES:APLICACIONES:MercadotecniaMercadotecniaAnálisis de ImágenesAnálisis de Imágenes Modelos de Simulación Modelos de Simulación

Page 12: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Teoría de muestreo Población finitaPoblación finita Población infinitaPoblación infinita

Definición del conjunto de muestrasDefinición del conjunto de muestras Asignación de Probabilidad ( Asignación de Probabilidad ( ii ) ) Selección ( Selección ( ii ) ) EstimaciónEstimación

Muestreo

ProbabilísticoProbabilísticoProbabilísticoProbabilístico No ProbabilísticoNo ProbabilísticoNo ProbabilísticoNo Probabilístico

Page 13: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

• Probabilidad una medida de la certidumbre – La confiabilidad de una Inferencia

• Aproximación frecuentista - “A Priori”– Pr (Ai) = n/N

• n = número de todas las posibles formas en que “Ai” puede ser observado

• N = número total de posibles resultados

• Aproximación Subjectiva– Una “Opinión de Experto”

Medidas de ProbabilidadMedidas de ProbabilidadMedidas de ProbabilidadMedidas de Probabilidad

Page 14: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Conjunto de elementos u objetos - que obedecen a reglas de pertenencia definidas por el observador - de los cuales se desea conocer ciertos parámetros de comportamiento característicos de la Población.

Cada sujeto o elemento de la Población es una “observación”. Cada uno es una “incognita” en el sentido que puede tener uno de los tantos valores posibles de observar de cierta característica.

La Población puede ser: • Finita : si los elementos son contables• Infinita : si los elementos son enumerables

PoblaciónPoblaciónPoblaciónPoblación

Page 15: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

La Teoría de Muestreo pretende desarrollar métodos para obtener un conocimiento adecuado de ciertas características de una Población, mediante el estudio de un número reducido de elementos u objetos representativos de dicha Población

Población: DefiniciónPoblación: DefiniciónPoblación: DefiniciónPoblación: Definición

Page 16: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Muestreo Aleatorio Simple

Muestreo Estratificado Aleatorio

Muestreo Sistemático

Muestreo por Conglomerado

Muestreo Múltiple

Planes de MuestreoPlanes de MuestreoPlanes de MuestreoPlanes de Muestreo

Page 17: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

• Experimento: Un proceso de Observación

• Evento Simple: Un Resultado de un experimento que no puede ser

descompuesto -“Mutuamente Excluyente” -“Idéntica Posibilidad”

• Espacio Muestral: El conjunto de todos los resultados posibles

• Evento “A”: El conjunto de todos los eventos simples que

pertenecen al resultado “A”

MuestreoMuestreoMuestreoMuestreo

Page 18: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Sea n : Tamaño de la Muestra

N : Tamaño de la Población

{Si: i = 1, 2, .... } todas las muestras posibles

Si se denomina el Espacio Muestral o Universo

Conjunto de todos los resultados u observaciones que se pueden observar al realizar un experimento

Puede ser• Discreto• Continuo

nN

Espacio MuestralEspacio MuestralEspacio MuestralEspacio Muestral

Page 19: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

1.- Por la Forma de Considerar un Evento• Sin Reposición• Con Reposición

2.- Por la Forma de Tomar la Muestra• Juicio• Aletaroria - Simple - Sistemática - Estratificada - Conglomerados

3.- Por el número de Muestras• Simple• Múltiple

Clasificación de Métodos de MuestreoClasificación de Métodos de MuestreoClasificación de Métodos de MuestreoClasificación de Métodos de Muestreo

Page 20: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

• Conjunto de observaciones tomadas de una Población.

• Se dice que la muestra es aleatoria cuando la manera de selección de cada elemento de la población tiene igual oportunidad de ser seleccionado.

• El método de selección es decisivo en las conclusiones que se pueden obtener de la muestra.

Muestreo AleatorioMuestreo AleatorioMuestreo AleatorioMuestreo Aleatorio

Page 21: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Tanto en la escala intervalar como en la de razón es posible distinguir dos tipos de variables aleatorias:

Variables Discretas: una que puede tomar sus valores de un conjunto de puntos aislados (subconjunto de valores en R)

Variables Continuas: una que puede tomar sus valores en un conjunto donde todos sus elementos son puntos de acumulación (un intervalo en R). Siempre es posible tratar una variable continua como discreta mediante la construcción de “intervalos de clase” representando cada uno de los intervalos por su valor medio denominado “marca de clase”

Variables Categóricas o Cualitativas

Variables Cuantitativas

Tipo de VariableTipo de VariableTipo de VariableTipo de Variable

Page 22: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Parámetro:Parámetro:Medida para describir alguna característica de los elementos de una Población, tal como Valor Esperado, Moda o Varianza poblacional.Estos guarismos son valores “verdaderos”, pero deconocidos.

Estadística ( Estadígrafo):Estadística ( Estadígrafo):Medida para describir una característica de la Muestra, tal como Promedio, Varianza o Moda muestral. Estos valores son calculados a partir de la Muestra, pero son valores aproximados de los parámetros que representan

EstimaciónEstimaciónEstimaciónEstimación

Page 23: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Es un método de selección de n unidades sacadas de N, de tal manera que cada una de las muestras C(N,n) tiene la misma probabilidad de ser escogida.

En la prática un m.a.s. es sacado unidad por unidad: • Las unidades de la población son numerados del 1 al N. • A continuación son seleccionados n números aleatorios entre 1 y N, ya sea de tablas o de una urna como en la lotería

Muestreo Aleatorio Simple: M.A.S.Muestreo Aleatorio Simple: M.A.S.Muestreo Aleatorio Simple: M.A.S.Muestreo Aleatorio Simple: M.A.S.

Page 24: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Se emplea cuando la población está agrupada en pocos estratos, cada uno de ellos con muchos individuos. Consiste en sacar un m.a.s. de cada uno de los estratos.

Los Estratos, por lo general, son de diferente tamaño; la muestra, por consiguiente, para ser representativa debe contener elementos de cada estrato en forma proporcional a la población. (Esto se llama afijación proporcional, la que no siempre resulta ser la más conveniente por cuanto los costos de muestreo en cada uno de los estratos

pueden ser distintos).

Muestreo Estratificado AleatorioMuestreo Estratificado AleatorioMuestreo Estratificado AleatorioMuestreo Estratificado Aleatorio

Page 25: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Se utiliza cuando las unidades de la población están, de algún modo, totalmente ordenadas. Para seleccionar una muestra se aprovecha la ordenación de las unidades.

Para seleccionar una muestra de tamaño n• se divide la población en “n” subpoblaciones de tamaño K = N/n • se toma una unidad al azar de la primera subpoblación y • de ahí en adelante cada k-ésima unidad.

Si n1 es la unidad seleccionada de la primera población, entonces las siguientes observaciones serán n2 n1+K, n3 n2+K ó n1+2K

Muestreo SistemáticoMuestreo SistemáticoMuestreo SistemáticoMuestreo Sistemático

Page 26: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Se emplea cuando la población está dividida en grupos pequeños.

Consiste en obtener una m.a.s. de algunos grupos y luego censar cada uno de estos.

Hay dos razones para principales para la extensa aplicación de estos planes de muestreo: falta de una lista confiable de elementos en la población y consideraciones del tipo económica.

Muestreo por ConglomeradoMuestreo por ConglomeradoMuestreo por ConglomeradoMuestreo por Conglomerado

Page 27: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

La muestra se toma en dos pasos:

• en el primero se selecciona la muestra de unidades primarias y

• en la segunda se selecciona una muestra de elementos a partir de cada unidad primaria escogida

Muestreo por Múltiple (doble)Muestreo por Múltiple (doble)Muestreo por Múltiple (doble)Muestreo por Múltiple (doble)

Page 28: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

• Se tienen 2000 pernos en una urna• El largo de cada perno puede estar entre 99,5 y

100,5 mm• Se toma una muestra de cinco pernos y se mide

su largo• Cada observación es una “variable aleatoria

continua”. Todas obedecen a la misma distribución y son independientes entre si

• Los pernos medidos se dejan a un lado y se toma otra muestra de cinco pernos. De continuar así a habrá observado toda la población

• Hacer un gráfico de barras – histograma – con la frecuencia que aparece cada número

• “Variable Aleatoria” Continua

• “Población” Finita

• “Espacio Muestral” Finito

• “Variable Aleatoria” Continua

• “Población” Finita

• “Espacio Muestral” Finito

Ejemplo 1Ejemplo 1Ejemplo 1Ejemplo 1

Page 29: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

• Se tiene 2000 pernos en una urna• El largo de cada perno puede estar entre 99,5 y

100,5 mm• Se toma una muestra de cinco pernos y se mide

su largo• Cada observación es una “variable aleatoria

continua”. Todas obedecen a la misma distribución y son independientes entre si

• Por pernos medidos se devulven a la urna y se toma otra muestra de cinco pernos. El experimento se puede repetir indefinidamente, porque siempre existirán 2000 pernos en la urna

• “Variable Aleatoria” Continua

• “Población” Finita

• “Espacio Muestral” Infinito

• “Variable Aleatoria” Continua

• “Población” Finita

• “Espacio Muestral” Infinito

Ejemplo 2Ejemplo 2Ejemplo 2Ejemplo 2

Page 30: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Estáticos Dinámicos

Explicativos

y = + u(Primera parte)

Extrapolativos

y = + x + u(Tercera y cuarta

parte)

y = + yt-1 + ut

(Quinta parte)

y = + x + yt-1 + ut

(Quinta parte)

Page 31: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Métodos Métodos EstadísticosEstadísticos

enenDATA MININGDATA MINING

Page 32: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Knowledge Discovery in Data Bases (KDD)

Knowledge Discovery in Data Bases (KDD)

“Es un proceso de identificación de patrones válidos, innovativos, potencialmente útiles, no explícitos y comprensibles a partir de los datos”.

Page 33: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

KDDKDD

Etapas del KDD :

1. Data Selection

2. Cleaning

3. Enrichment

4. Coding

5. Data Mining

6. Reporting

Page 34: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Requiremientos de Información

Data Bases

Action

Datos Externos

Selección de Datos

Cleaning:Domain consistencyDe-duplication Outliers detection

Enrichment

Coding

Data Mining Association Clustering Classification Regression Reporting

Feedback

KDDKDD

Page 35: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

Data Mining (DM)Data Mining (DM)

“Etapa de reconocimiento de patrones, a través de algoritmos automáticos o semiautomáticos de grandes bases de datos con el objeto de apoyar a la toma de decisiones dentro de una organización”.

Page 36: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

•Existen diversos algoritmos en Data Mining los que se pueden clasificar

•Machine Learning

•Pattern Recognition

•Actividades de Data Mining:

•Preparación de los datos

•Aplicación de algoritmos de DM

•Análisis de datos

Algoritmos en DMAlgoritmos en DM

Page 37: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

•Algoritmos de DM:

•Asociación de datos (ANN)

•Pattern recognition (Time Series)

•Clustering

•Clasificación

•Regresión

•Pronósticos

DMDM

Page 38: Capítulo 1 Introducción II- 2001. ¿ Qué es la estadística ? 4 Ciencia dedicada al estudio sistemático de los datos 4Transforma datos en información 4Contribuye

•Energía: Apoyo a la toma de decisiones en plantas energía eléctrica (centro de despacho de cargas)

•Medicina: Mejora de diagnósticos y asignación de tratamientos en base a reconocimiento de patrones.

•Marketing: información demográfica y sistemas geo-referenciados, patrones de compra, segmentación de mercados.

•Finanzas: predicción de valores y riesgo en el mercado de opciones.

Aplicaciones de DMAplicaciones de DM