57
IIC2100 Muestreo y Estadística con R para Ingeniería Ricardo Aravena C. Septiembre 2013 IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de estadística

IIC2100 R Ricardo Aravena C. Septiembre 2013 - …thc.ing.puc.cl/thc/Portals/0/Taller 6/Encuestas y Estadísticas... · IIC2100 Taller de Herramientas Computacionales para Ingeniería

  • Upload
    danganh

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

IIC2100Muestreo y Estadística con R

para Ingeniería

Ricardo Aravena C.

Septiembre 2013

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de estadística

Introducción

¿Qué veremos hoy?

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Introducción a la Estadística (de cada día). ¿Cómo hacer encuestas?Problemas ….Uso de una “calculadora” estadística (y un poco más).

IntroducciónEstadísticaMuestreo

R el software

Estadística

¿Qué es la estadística?

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

ConceptualUn conjunto de metodologías y técnicas que permiten caracterizar un fenómeno.

FormalEs el proceso de recolectar, resumir y analizar datos para la toma de decisiones bajo incertidumbre.

IntroducciónEstadísticaMuestreo

R el software

Estadística

¿Qué es la estadística?

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Ejemplo: Supón que las edades de un grupo de estudiantes son:

22, 24, 26, 19, 21, 23, 22, 22, 18, 23, 22

Describir…

IntroducciónEstadísticaMuestreo

R el software

Estadística

¿Qué es la estadística?

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Ejemplo: Supón que las edades de un grupo de estudiantes son:

22, 24, 26, 19, 21, 23, 22, 22, 18, 23, 22

Se tienen 11 casos y se puede deducir que: El menor tiene 18, y el mayor tiene 26 años. En términos más exacto, promedio 22 años. La moda y mediana es 22 años…

IntroducciónEstadísticaMuestreo

R el software

Estadística

¿Qué es la estadística?

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

¿Eso es estadística?La respuesta es no… lo realizado corresponde al uso de un par de indicadores, los cuales se utilizan para describir conjuntos de datos.Hay muchas preguntas sobre el: por qué?, cómo?, cuándo? y para qué? utilizar un u otro indicador.

IntroducciónEstadísticaMuestreo

R el software

Estadística

¿Qué es la estadística?

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

En resumen, se puede concluir que la estadística es:a)un conjunto de técnicas que permiten analizar datos que puede transformar en información y en conocimiento.b)La metodología que le da el sustento (métodos) a la investigación científica.

IntroducciónEstadísticaMuestreo

R el software

Muestreo

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Criterios básicos

POBLACION – conjunto de elementos con ciertas características de interés

MUESTRA – subconjunto de elementos de la población. 

PARAMETROS vs. ESTADISTICAS – resúmenes de las características de la población y de la muestra respectivamente.

PRECISION – si la selección se realiza mediante diseños muestrales probabilísticos, es factible obtener un indicador de la precisión (varianza de los estimadores)

Aproximado  .. Para estimar una proporción%1001 xn

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Criterios básicos para seleccionar una muestra de tamaño n

M.A.S. (muestreo aleatorio simple) asigna la misma probabilidad (“chances”) a cada elemento de la POBLACION (ej. Numerar).

M. Estratificado – segmentar o dividir la población en grupos homogéneos, de acuerdo a la característica a estudiar, y aplicar m.a.s. al interior de cada estrato (no necesariamente proporcional – Ej. Ver www.peoplemeter.cl)

M. de conglomerados – las unidades están agrupadas en forma natural (por ejemplo: alumnos de un curso, viviendas de una manzana, pasajeros de un vuelo, etc). Se seleccionan  un número de conglomerados y al interior de cada uno de ellos se puede censar o bien aplicar m.a.s. de tamaños predefinidos (ej. www.casen.cl ver metodología)

Por tanto, es importante dilucidar el CÓMO SELECCIONAR.

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Determinación del tamaño de muestra ‐ Proporción

Si deseamos estimar una proporción P con un nivel de confianza predeterminado (digamos 95%) y un margen de error no superior a un %, el tamaño de muestra necesario de una población de N elementos, esta dado por:

Donde z corresponde al percentil de la distribución normal (1,96 para un 95%)

Y si no conocemos P, se usa criterio de varianza máxima  P=1/2 

Nnonn

PPzn 1

2

0 01)1(

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Determinación del tamaño de muestra ‐ Proporción

Fórmula:

Ejemplo: 

Determine el tamaño de muestra para estimar la proporción de estudiantes que viene en automóvil al campus con un error no superior al 3% y un nivel de confianza del 95% (suponga N=3000, población de estudiantes) 

Solución1: n0=1067    n=790 casos (aprox.) ‐ criterio de var. Máxima

Solución1: n0= 896     n=690 casos (aprox.) ‐ supuesto P=0,3

Nnonn

PPzn 1

2

0 01)1(

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Determinación del tamaño de muestra ‐MEDIA

Si deseamos estimar una media  con un nivel de confianza predeterminado (digamos 95%) y un margen de error no superior a un unidades, el tamaño de muestra necesario de una población de N elementos, esta dado por:

Donde z corresponde al percentil de la distribución normal (1,96 para un 95%)

Y si no conocemos , puede utilizarse una cota =(Max‐Min)/4

Nn

onnzn01

2

0

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Determinación del tamaño de muestra ‐MEDIA

Fórmula:

Ejemplo: 

Determine el tamaño de muestra para estimar la gasto medio semanal en alimentación de estudiantes que almuerzan en el campus con un error no superior al $1,000 (o de $500) y un nivel de confianza del 95% (suponga N=3000, población de estudiantes y que el gasto esta entre $2000 y $18000) 

Solución1:  suponemos =$4000.  n0=61,5  n=60 casos (aprox.)  ‐ error $1000

Solución1:  suponemos =$4000.  n0=246  n=230 casos (aprox.)  ‐ error $500

Nn

onnzn01

2

0

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Motivación

La manera en que se formula una pregunta puede afectar los resultados de una encuesta.

Opción 1 ‐ ¿Qué marcas de Plasma/LCD conoce usted?

Opción 2 ‐ ¿Cuáles de las siguientes marcas de Plasma/LCD conoce usted: LG, Panasonic, Samsung, Sony, Philips, AOC, Sharp?

Claramente, los resultados  son muy distintos!

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

¿Qué es un cuestionario?

• Un conjunto formalizado de preguntas que permiten obtener información útil – relevante, oportuna, eficiente y exacta – para la investigación.

•Instrumento de medición y recolección de información para su posterior análisis.

La principal función es medir un conjunto de variables relevantes para la decisión que se pretende tomar. Es ideal establecer un instrumento estándar que garantice la aplicación de las mismas preguntas a todos los encuestados.

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

GUIA METODOLOGICA – proceso de diseño

1. Especificar información necesaria2. Especificar tipo de entrevista3. Determinar el contenido de las preguntas individuales4. Analizar problemas de incapacidad / disposición5. Decidir estructura6. Determinar redacción7. Definir orden8. Identificar forma y disposición

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

1. Especificar información necesaria

Se debe definir la información que se busca obtener en relación a los objetivos específicos de la etapa cuantitativa y de la investigación en su conjunto.

Se deben determinar las variables relevantes del problema que se desean medir con el cuestionario

Anticipar la técnica del análisis de datos (métodos estadísticos) que se ocupará y simular los resultados que se obtendrán, para que el cuestionario sea coherente con las etapas de la investigación.

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

2. Especificar tipo de entrevista

Personal – Entrevista o auto‐aplicada

Telefónica – tradicional o CATI

Web – duración ideal no más de 10 minutos

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

WEB

VentajasCOSTO…y velocidad

ProblemasTasa de respuesta – Web < Telefónica < PersonalPercepción de anonimatoCantidad de datos – extensiónSesgo de selección

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

3. Determinar el contenido de las preguntas individuales

¿usted no fuma? : Si / No

¿es necesaria la pregunta? – no incluir preguntas innecesarias¿una o varias preguntas? – evitar conectivos “y” u “o” y “negaciones”

Ejemplos:¿con qué frecuencia lee revistas políticas?. ____ rara vez       ____  a   veces       ____ siempre

Uso de escala Likert : muy en desacuerdo muy de acuerdo

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

4. Analizar problemas de incapacidad / disposición

• Información• “recordación”• Contexto / propósitos• Información delicada

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Tips: 

• Dejar temas delicados hacia el final

• Hacer preguntas en tercera persona

• Ocultar preguntas difíciles entremedio de otras neutrales

• Proporcionar categorías en vez de solicitar cifras exactas.

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

5. Decidir estructura

• Preguntas abiertas, semi‐abiertas y cerradas

las cerradas son más “fáciles”… pero debe ser predeterminado

• Cerradas simples, múltiples o matriciales.

Afirmación‐ elección o grado de concordancia

• Ranking, nota, proporción

Usar escala comprensible

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

6. Determinar redacción

• Definición del quién, qué, cómo, cuándo, dónde y el por qué

a) ¿qué marca de pasta dental utiliza?

b) ¿qué marca de pasta dental utilizo durante la última semana?

• Vocabulario adecuado y coherente con el perfil

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

• Evitar el uso de palabras ambiguas

¿Con qué frecuencia va al supermercado?  ____

a) __ Ocasionalmente   __ Frecuentemente  __ Regularmente

b) __ menos de una vez   __ entre 3 y 4 veces  __ más de 4 veces

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

7. Definir orden

Inicio: 

• son fundamentales para ganar la confianza del entrevistado

• deben ser sencillas, interesantes e inofensivas.

• Posteriormente, se debe obtener la información más relevante. No solicite identificación – puede inhibir a los entrevistados

• Preguntas difíciles – una vez que se ha establecido la armonía y la confianza

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

ORDEN LOGICO

Por temas, al cambiar conviene usar frases de transición. Cuidado con las ramificaciones y filtros (condicionales).

Secuencia del “embudo” o desarrollo cognitivo:

¿usa el cinturón de seguridad?  __ SI   __ NO.

Formato alternativo –

¿viajo en auto la semana pasada de acompañante?

¿cuán largo fue el viaje? __ un par cuadras __ más

¿usó cinturón de seguridad: __ SI  __ NO

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

8. Identificar forma y disposición

Recuerde que el uso de formato, márgenes, cuadros e imágenes pueden influir en las respuestas

Es útil utilizar numeración (concisa)

Instrucciones claras y precisas.

Evite saltos… y menos tener que volver atrás

Entregue la oportunidad de comentar la entrevista

y finalmente termine siempre con un agradecimiento.

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo – problemas….

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

A fines del año 2012, Adimark decidió suspender la secuencias de encuestas que realizaba mes a mes….

Razón: Inconsistencia de los resultados con la evidencia (Participación electoral) 

Muy simple… el 65% de los encuestados decía haber ido a votar, pero los datos duros decían que el porcentaje era apenas superior al 40%...

IntroducciónEstadísticaMuestreo

R el software

Estadística

Encuestas por Muestreo – problemas….

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

¿Dónde está el error? –1. Los entrevistados mienten!2. La muestra es sesgada

a) Selección de números telefónicos “fijos”b) Un alto porcentaje de números seleccionados no 

respondía la encuesta…

Solución:Adecuar apropiadamente el MARCO MUESTRAL…

IntroducciónEstadísticaMuestreo

R el software

R el software

¿Cómo?

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Es claro que existen métodos que permiten extraer la información de un conjunto de datos. El problema que debemos responder ahora es el ¿cómo?.La habilidad, es sin lugar a dudas, muy necesaria. Pero, cuando se disponen de métodos claramente definidos y grandes masas de datos, los sistemas computacionales son las herramientas. 

IntroducciónEstadísticaMuestreo

R el software

R el software

¿Cómo?

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Ya vieron en su minuto que Excel® es, además, una poderosa herramienta estadística.Sin embargo, hay un pero…. Y este se refiere al objetivo final en cada uno de los sistemas computacionales y en el caso de Excel® claramente no es el estadístico …

IntroducciónEstadísticaMuestreo

R el software

R el software

¿Cómo?

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Se han desarrollados sistemas explícitamente para “hacer estadísticas”, nombres emergen rápidamente (en el ámbito estadístico)..Por ejemplo:SAS, Minitab, R, STATA (disponibles en PUC)SPSS, STATGRAPHICS, StatView, S‐Plus, entre muchos otros.

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

R (que es gratuito) es más que un sistema computacional estadístico. R es un lenguaje de programación para el análisis estadístico y gráfico.

Hoy en día, la comunidad estadística contribuye al crecimiento de R a través de librerías o “paquetes” especializados (y de libre disponibilidad).  

IntroducciónEstadísticaMuestreo

R el software

R el software

Ejercitando

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Como se dijo, R es un lenguaje… así que conversar Primera clase:1° “encender” el sistema (doble click en logo R)2° >quit() …. Se ha finalizado una sesión.

(siempre hay que saber cuando salir!)

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

R – sistema de análisis estadístico

¿Qué puede hacer?… todo (estadísticamente hablando) por ejemplo:• descripciones estadísticas• gráficos• modelos de regresión• métodos multivariantes … y mucho más

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

¿Cómo?

Al disponer de una base de datos, a través de instrucciones simples y directas permite realizar los más diversos análisis estadísticos

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

¿Qué veremos hoy?

Cómo ingresar datos Cómo describir datos Cómo graficar datos Cómo aplicar métodos estadísticos

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

¿Qué métodos estadísticos revisaremos?

Regresión lineal múltipleRegresión logísticaOtros…

Pero, también trataremos de entender lo que estamos haciendo!

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

DATOS …Primeramente, en estadística existe el concepto de VARIABLE y CASOS, es decir, para todo problema podemos “construir” una matriz de n filas (datos) por k columnas (variables). 

Así, para nuestros ejemplos utilizaremos una matriz de 100 casos por 10 variables (archivo Excel HATCO)

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

LEER DATOS … desde archivosPrimero, si nuestra base esta almacenada con la siguiente estructura:

Archivo: datos.txtCaso  edad   sexo      PPA1 24 M 5.22 19 F 5.63 27 M 4.3..

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Basta con la instrucción>datos <‐read.table(“d:\\datos.txt”,header=T)

Después nos tenemos que “apropiar” de la base…

> attach(datos)> datos

Las instrucciones en R estarán antecedidas por el símbolo “>” 

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Ahora, podemos “utilizarla”.. por ejemplo, veamos algunas descripciones básicas.Una descripción de las variables numéricas: edad y ppa.

> mean(edad)> mean(ppa)

Una descripción más completa:> summary(edad)

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Algún gráfico relevante…>hist(edad)

Un gráfico “interesante”…>boxplot(edad)

Un “dispersiograma” (o gráfico X vs Y)> plot(edad,ppa) 

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

¿hay alguna asociación entre edad y ppa?

> cor(edad,ppa)

… estamos entrando al análisis estadístico…

Asociación Modelamiento causalidad… 

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Regresión Lineal MúltipleGeneralmente se busca explicar (o predecir) una variable respuesta, digamos Y. Para ello disponemos de una cantidad k de variables explicativas.

Supuestos:• Linealidad• Homogeneidad• Auto‐correlación nula

kk XXY 110

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Utilicemos R para ajustar un modelo de regresiónLeemos los datos (a mano)

> ptje  <‐ c(75,82,61,45,92,32,65,50)> nem <‐ c(720,660,500,540,750,480,600,640)> hrs   <‐ c(10,15,10,8,18,2,8,6)

O leemos de archivo:

> datos <‐read.table(“d:\\notas.txt”,header=T)

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Ajustamos los modelos de regresión lineal simpleFUNCION : lm (viene de linear model)

> m1 <‐ lm (ptje ~nem)> m2 <‐ lm (ptje ~hrs)

Revisamos “resultados”..> summary(m1)> summary(m2)

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Ahora, ajustamos el modelo “múltiple”

> m3 <‐ lm (ptje ~nem + hrs)> summary(m3)

Aportes individuales..> anova(m3)

Interesa de sobremanera el coeficiente de determinación R2

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Regresión LogísticaEn ciertas circunstancias la respuesta a modelar es BINARIA, es decir toma uno de dos valores, por ejemplo:

1 si cumple cierta condiciónY = 

0 si no cumple la condición

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Insistimos que Y puede representar – compra vs. no compra; paga vs. no paga; aprueba vs. no aprueba; etc.

Por tanto, nos interesa determinar los factores que influye en la probabilidad pi = P(Yi=1)

Haciendo cierta equivalencia con el modelo de regresión lineal clásico, se puede plantear

pi = xi’. 

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Problemas:pi = xi’. con xi’ = 0+1x1+2x2+…+kxk

pi varia entre 0 y 1… y es claro que xi’ no necesariamente.

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Solución“Chance” |R+

“Logit”  |R

Por tanto, se plantea el modelo para pi comologit(pi) 

i

iP

P1

)log(1 i

iP

P

')log(1 iPP x

i

i

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

De la definición se puede obtener (“antilogit”)

que es un modelo no lineal

'

'

1 x

x

ee

ip

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

EjemploPara ilustrar el modelo logit, vamos a suponer que se disponen de los siguientes datos.Edad(grupo) 21 27 35 45 55Morosos 3 6 12 16 8TOTAL 20 30 40 35 12“probab” 0,15 0,20 0,30 0,46 0,67

¿depende la probabilidad de morosidad de la edad?

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

# ingresamos … manualmente los datos:> edad<‐c(21,27,35,45,55)> mor  <‐c(3,6,12,16, 8)> tot    <‐c(20,30,40,35,12)> prop <‐mor/tot> prop> resp <‐ cbind(mor, tot‐mor)> modelo <‐ glm ( resp ~edad, family=binomial)> summary(modelo)> predict(modelo, type=“response”) # prediccion

IntroducciónEstadísticaMuestreo

R el software

R el software

IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística

Regresión POISSON

Alternativamente, se puede “modelar” la aparición de casos (morosidad) en función de la edad, tomando en cuenta la cantidad de “expuestos” con una regresión Poisson.> # con la base edad, mor y tot se tiene:> rp<‐ glm( mor~edad, family=poisson, offset=log(tot))> summary(rp)… es necesario indicar el OFFSET…

IntroducciónEstadísticaMuestreo

R el software