19
INDICE DE DESARROLLO HUMANO EN FUNCION DE LAS VARIABLES ESPERANZA DE VIDA, AFABETIZACION, POBLACION CON EDUCACION SECUNDARIA COMPLETA Y INGRESO FAMILIAR Integrantes Casas Aquije César Ramón Hinostroza Juan Caballero Rodriguez Kenny REGRESION

Trabajo de Regresion(1)

Embed Size (px)

DESCRIPTION

Trabajo de regresion

Citation preview

INDICE DE DESARROLLO HUMANO EN FUNCION DE LAS VARIABLESESPERANZA DE VIDA, AFABETIZACION, POBLACION CON EDUCACION SECUNDARIA COMPLETA Y INGRESO FAMILIAR Integrantes Casas Aquije Csar Ramn Hinostroza Juan Caballero Rodriguez Kenny REGRESION Tabla de contenido INTRODUCCION ................................................................................................................................................. 3 OBJETIVOS ............................................................................................................................................................. 3 1.INDIVIDUOS Y VARIABLES ................................................................................................................... 4 2.CORRELACIN ........................................................................................................................................... 7 3.CORRELACIONES PARCIALES ............................................................................................................. 7 4.MULTICOLINEALIDAD ........................................................................................................................... 9 5.SELECCIN DE VARIABLES ................................................................................................................. 9 6.PROBLEMAS CON LAS OBSERVACIONES .................................................................................... 12 7.BONDAD DE AJUSTE ............................................................................................................................. 14 8.DIAGNOSTICO DEL MODELO .......................................................................................................... 15 NORMALIDAD ............................................................................................................................................... 15 HOMOCEDASTICIDAD .............................................................................................................................. 16 PRUEBA DE INCORRELACION .............................................................................................................. 17 9.CONCLUSIN: ........................................................................................................................................... 19 INTRODUCCION El ndice de desarrollo humano (IDH) es un indicador del desarrollo humano por pas, elaborado por el Programa de las Naciones Unidas para el Desarrollo (PNUD). Se basa en un indicador social estadstico compuesto por tres parmetros: vida larga y saludable, educacin y nivel de vida digno. Parmetros del ndice de desarrollo humano[editar] 1 - Salud: medida segn la esperanza de vida al nacer. 2-Educacin:medidaporlatasadealfabetizacindeadultosylatasabrutacombinadade matriculacineneducacinprimaria,secundariaysuperior,ascomolosaosdeduracindela educacin obligatoria. 3 - Riqueza: medida por el PIB per cpita PPA en dlares internacionales. OBJETIVOS Estimar el IDH(Indice de Desarroollo Humano ) por distrito cada distrito de lima en funcin delaesperanzadevida,Alfabetizacin,ingresofamiliar,poblacinconeducacinsecundaria completa. Dar otra alternativa de clculo al considerar Ingreso familiar en lugar del PBI. Aplicar todo el conocimiento adquirido en clase. 1.Utilizar el R estadistica como plataforma para el anlisis re regresin mltiple. 2.INDIVIDUOS Y VARIABLES ContamosconunabasededatosextradadelInformeDESARROLLOHUMANOPER2013. CAMBIOCLIMTICOYTERRITORIO:DESAFOSYRESPUESTASPARAUNFUTURO SOSTENIBLE, este informe tiene en su anexos la base de datos del re-clculo del Programa Naciones UnidasparaelDesarrollo(PNDU)delndicededesarrollohumanodepartamental,provincialy distrital en el Per en los aos 2012, 2011, 2007 y el 2003. PorotroladocontamosconunelinformeAproximacionesalIDH,loquehemoshechoes empalmar ambas bases, de tal manera que coincidan los datos de ambas bases de datos. Para no trabajar con todos los distritos y provincias segmentamos la base de datos en un ao especific que es el 2007 e hicimos la regresin con los datos de Lima metropolitana y sus distritos, esta base de datos cuenta con las siguientes variables: Poblacin: Poblacin EV: Esperanza de Vida ALFA: Alfabetizacin ESCOLA: Escolaridad LOGROEDU: Logro educativo indicedesarrolla: ndice de Desarrollo Humano poblacin.1: Poblacin con Educacin secundaria completa DIC: Ingreso familiar Primeroabrimoslabasededatosconlaquevamosatrabajarqueestguardadoconelnombrede regresionIDH.txt en la carpeta regresin y lo mostramos. basedatossup y eso nos da un indicio para pensar que posee datos extremos. 3.CORRELACIN cor(basedatos) Aqupodemosconfirmarlovistoenelgraficoanteriorsiobservamosenlasextalneapoblaciny ndicedesarrollatienenunabajacorrelacin,encambioconlasotrasvariablestieneunaalta correlacin. 4.CORRELACIONES PARCIALESPara calcular las correlaciones parciales necesitamos descargar el paquete de R llamado Rcmdr. Para ello debemos ir al men Paquetes Instalar paquete(s).Se abrir entonces una ventana.EnellabuscayseleccionaSpain(Madrid)OK.Luegoseabrirunanuevaventanaenella aparecen,porordenalfabtico,todoslospaquetesqueexistenactualmente.Buscaelquesellama Rcmdr (encontrars otros paquetes que comenzarn de la misma forma, pero SLO nos interesa el que se llama exactamente Rcmdr). Lo seleccionas y hacemos click sobre OK. Tardar unos segundos en instalarse todo. Despus escrbimos en R: library(Rcmdr)AldarlealIntroseabrirunanuevaVENTANA.DebescerrarlayseguirtrabajandoenRcomo habitualmente hacemos. As que sigue escribiendo lo siguiente: partial.cor(basedatos) Detectamosentoncesquelasvariablesmsimportantesalahoradeexplicarindicedesarrollaes DICO,seguidadepoblacin.1,EV,poblacin,ALFA,LOGROyESCOLA.Aqupodemos observar que el orden en que mostraba la correlacin simple no era cierto.Tambinnospodemosdarcuentaquelavariableingresoyanoestpresenteenelanlisis,loque sucedeesquelohemosrecodificadoenotravariablellamadaDICOquetienedoscaractersticas, ingreso medio y alto. Ahora vamos a ajustar un modelo de regresin lineal con todas las variables disponibles y analizar los resultados obtenidos. model1 = lm(indicedesarrolla ~ poblacion + EV + ALFA + poblacion.1+ ESCOLA + LOGROEDU + DICO,data=basedatos summary(model1) Enel resumende la regresinpodemos observar que el p-valor del contrate general es menor a 0.05 eso quiere decir que existe al menos un coeficiente que es distinto de cero. Por otro lado si nos fijamos en los p_valores de los contrastes individuales, observamos que son solo 4 coeficientes significativos (el intercepto, EV, poblacin.1, DICO), y el resto no significativos. Tambin podemos ver a travs del coeficiente de determinacin mltiple que el ajuste es bueno con un R^2=0.9512 y un R^2 ajustado de 0.9217. Pero estos resultados pueden estar distorsionados debido a problemas de multicolinealidad, vistos en el anlisis de correlacin. 5.MULTICOLINEALIDAD La multicolinealidad provoca una serie de problemas en el ajuste del modelo, como por ejemplo que las estimaciones de los parmetros no sean correctas o que los errores de estimacin sean elevados. Podemoshacernosunaideadelaposibleexistenciadeasociacinentrecadapardelas7variables ayudndonos de la matriz de correlaciones ya mostrados, como vimos en clase se puede sospechar de la multicolinealidad cuando el R^2 es mayor a 90 y la correlacin entre dos variables es casi 1, teniendo en cuenta esto podemos decir que solo tres variables (ALFA, ESCOLA y LOGROEDU) son mayores al 90% lo cual nos esta indicando que hay un problema de dependencia entre as variables regresoras Podemos concretar estos problemas analizando los factores de incremento de la varianza (VIF). vif(model1) Encontramos problemas de multicolinealidad en aquellas variables cuyo VIF sea mayor que 1/(1-R^2).Vemos en la tabla que superan este valorlos VIFs de las variables ALFA, ESCOLA y LOGROEDU, por lo tanto podemos concluir que el resto no estarn implicadas en la existencia de multicolinealidad. 6.SELECCIN DE VARIABLES Probada la existencia de multicolinealidad vamos a seleccionar las variablesms adecuadas para realizar el ajuste final. TeniendoencuentaqueLOGROEDUenlatabladeresmenesdelmodelosucoeficientenofue significativo y por tener una correlacin muy alta con ALFA y ESCOLA la eliminamos del modelo. model2 = update(model1, .~.-LOGROEDU) summary(model2) Podemos observar que el coeficiente deALFA ahora ya es significativo. Por las mismas razones por las que eliminamos a LOGROEDU eliminamos a ESCOLA. model3 = update(model2, .~.-ESCOLA)summary(model3) Ahora podemos ver que ya casi todos los coeficientes de las variables son significativos con excepcin del coeficiente de la variable poblacin, entonces determinamos eliminar poblacin, primero por tener una baja correlacin con la variable respuesta y segundo porque lo ya antes mencionado. LavariableALFAtenaproblemasdemulticolinealidadconotrasvariablesperoestosesolucion gracias que se elimin las variables ESCOLA Y LOGROEDU que estaban causando estos problemas. vif(model3) Eliminamos la variable poblacin: model4 = update(model3, .~.-poblacion) summary(model4) Este mismo anlisis se puede hacer con R con los siguientes comandos: step(model1, direction="backward") El algoritmo forward funciona de forma opuesta al backward. Empieza seleccionando la variable con mayorcoeficientedecorrelacinsimpleparaposteriormenteiraadiendovariableseligiendoprimero las que ms mejoran el ajuste, es decir, en orden de mayor a menor coeficiente de correlacin parcial. Obteniendo los mismos resultados que los que obtuvimos sin usar el comando de R. 7.PROBLEMAS CON LAS OBSERVACIONESOutliers, desde el punto de vista de la respuesta (residuos studentizados). Ahoravamosalocalizarlosoutliers,desdeelpuntodevistadelarespuesta,fijndonosenlos residuosstudentizados.Valoressuperioresa3delosresiduosstudentizadosenvalorabsolutode cada individuo nos indican que este es un outlier. hy