8
ESTADÍSTICA DESCRIPTIVA Y BIDIMENSIONAL ÍNDICE 1. Definición de Estadística 2. Conceptos generales 3. Tratamiento de la información 4. Representación de los datos 5. Medidas de centralización 6. Medidas de dispersión 7. Estadística bidimensional 8. Correlación 9. Regresión Definición de Estadística : la palabra estadística procede del vocablo "estado" pues era función principal de los gobiernos de los estados establecer registros de población , nacimientos , defunciones , etc . Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos , tablas , gráficos , que se suelen publicar en los periodicos . En la actualidad se entiende por estadística como un método para tomar decisiones , de ahí que se emplee en multitud de estudios científicos . La estadística se puede dividir en dos partes : - Estadística descriptiva o deductiva , que trata del recuento , ordenación y clasificación de los datos obtenidos por las observaciones . Se construyen tablas y se representan gráficos , se calculan parámetros estadísticos que caracterizan la distribución , etc. - Estadística inferencial o inductiva , que establece previsiones y conclusiones sobre una población a partir de los resultados obtenidos de una muestra . Se apoya fuertemente en el cálculo de probabilidades . Población : es el conjunto de todos los elementos que cumplen una determinada característica . Ejemplo : alumnos matriculados en COU en toda España . Muestra : cualquier subconjunto de la población . Ejemplo : alumnos de COU del Sotomayor . Carácter estadístico : es la propiedad que permite clasificar a los individuos , puede haber de dos tipos : - Cuantitativos : son aquellos que se pueden medir . Ejemplo : nº de hijos , altura , temperatura . - Cualitativos : son aquellos que no se pueden medir . Ejemplo : profesión , color de ojos , estado civil . Variable estadística : es el conjunto de valores que puede tomar el carácter estadístico cuantitativo ( pues el cualitativo tiene "modalidades'' ) . Puede ser de dos tipos : - Discreta : si puede tomar un número finito de valores . Ejemplo : nº de hijos - Continua : si puede tomar todos los valores posibles dentro de un intervalo . Ejmplo : temperatura , altura . Frecuencia absoluta f i : ( de un determinado valor x i ) al número de veces que se repite dicho valor .

Estadistica Uni Bi Resumen Bueno

Embed Size (px)

DESCRIPTION

estadistica

Citation preview

ESTADSTICA DESCRIPTIVA Y BIDIMENSIONALNDICE1.Definicin de Estadstica2.Conceptos generales3.Tratamiento de la informacin4.Representacin de los datos5.Medidas de centralizacin6.Medidas de dispersin7.Estadstica bidimensional8.Correlacin9.RegresinDefinicin de Estadstica : la palabra estadstica procede del vocablo "estado" pues erafuncin principal de los gobiernos de los estados establecer registros de poblacin ,nacimientos , defunciones , etc . Hoy en da la mayora de las personas entienden porestadstica al conjunto de datos , tablas , grficos ,que se suelen publicar en losperiodicos .En la actualidad se entiende por estadstica como un mtodo para tomar decisiones , deah que se emplee en multitud de estudios cientficos .La estadstica se puede dividir en dos partes :-Estadstica descriptiva o deductiva , que trata del recuento , ordenacin yclasificacin de los datos obtenidos por las observaciones . Se construyen tablas yse representan grficos , se calculan parmetros estadsticos que caracterizan ladistribucin , etc.-Estadstica inferencial o inductiva , que establece previsiones y conclusionessobre una poblacin a partir de los resultados obtenidos de una muestra . Se apoyafuertemente en el clculo de probabilidades .Poblacin : es el conjunto de todos los elementos que cumplen una determinadacaracterstica . Ejemplo : alumnos matriculados en COU en toda Espaa .Muestra : cualquier subconjunto de la poblacin . Ejemplo : alumnos de COU delSotomayor .Carcter estadstico : es la propiedad que permite clasificar a los individuos , puedehaber de dos tipos :-Cuantitativos : son aquellos que se pueden medir . Ejemplo : n de hijos , altura ,temperatura .-Cualitativos : son aquellos que no se pueden medir . Ejemplo : profesin , color deojos , estado civil .Variable estadstica : es el conjunto de valores que puede tomar el carcter estadsticocuantitativo ( pues el cualitativo tiene "modalidades'' ) . Puede ser de dos tipos :-Discreta : si puede tomar un nmero finito de valores . Ejemplo : n de hijos-Continua : si puede tomar todos los valores posibles dentro de un intervalo .Ejmplo : temperatura , altura .Frecuencia absoluta fi : ( de un determinado valor xi ) al nmero de veces que se repitedicho valor .Frecuencia absoluta acumulada Fi : ( de un determinado valor xi ) a su frecuenciaabsoluta ms la suma de las frecuencias absolutas de todos los valores anteriores .Frecuencia relativa hi : es el cociente fi/N , donde N es el nmero total de datos .Frecuencia relativa acumulada Hi : es el cociente Fi/NSi las frecuencias relativas las multiplicamos por 100 obtenemos los % .Tratamiento de la informacin : se deben de seguir los siguientes pasos :-recogida de datos-ordenacin de los datos-recuento de frecuencias-agrupacin de los datos , en caso de que sea una variable aleatoria continua o biendiscreta pero con un nmero de datos muy grande se agrupan en clases . N de clases = NLos puntos medios de cada clase se llaman marcas de clase .Adems se debe adoptar el criterio de que los intervalos sean cerrados por laizquierda y abiertos por la derecha .-construccin de la tabla estadstica que incluir , clases , marca de clase , fi , Fi , hi ,Hi .Ejemplo : Las notas de Matemticas de una clase han sido las siguientes :534128987667987710159980888957 Construir una tabla :xifiFihiHi0 2 2 2/30 2/301 3 5 3/30 5/302 1 6 1/30 6/303 1 7 1/30 7/304 1 8 1/30 8/305 3 11 3/30 11/306 2 13 2/30 13/307 5 18 5/30 18/308 7 25 7/30 25/309 5 30 5/30 30/3030 1Representaciones grficas : para hacer ms clara y evidente la informacin que nosdan las tablas se utilizan los grficos , que pueden ser :Diagramas de barras ( datos cualitativos y cuantitativos de tipo discreto ) . En el ejey se pueden representar frecuencias absolutas o relativas .Histogramas ( datos cuantitativos de tipo continuo o discreto con un gran nmerode datos ) . El histograma consiste en levantar sobre cada intervalo un rectngulocuyo rea sea igual a su frecuencia absolutarea =base alturafi =i in x luego la altura de cada rectngulo vendr dada por ni que se llama funcin dedensidad . Si por ejemplo un intervalo es doble de ancho que los dems su altura nidebe ser la mitad de la frecuencia absoluta y as no se puede inducir a errores .Normalmente la amplitud de los intervalos es cte por lo que ni serproporcional a fi y por tanto podemos tomar fi como la altura ni ya que la forma delgrfico ser la misma , aunque ahora el rea del rectngulo ya no sea exactamentela frecuencia absoluta ( a no ser que la amplitud del intervalo sea igual a 1 ) .Polgono de frecuencias0123456780 1 2 3 4 5 6 7 8 9NotasFrecuencias absolutas fi0123456780 1 2 3 4 5 6 7 8 9notasfrecuencias absolutas fiDiagrama de sectoresCartogramasPirmides de poblacinDiagramas linealesPictogramasCLCULO DE PARMETROS :Medidas de centralizacin :Media aritmtica :

N..... x xx2 1+ +=Nxi =si son pocos datos

...... f f..... f x f xx2 12 2 1 1+ ++ +=Nf xi i =si son muchos valores pero se repiten muchoEn el caso de que los datos estn agrupados en clases , se tomar la marca de clasecomo xi .No siempre se puede calcular la media aritmtica como por ejemplo cuando losdatos son cualitativos o los datos estn agrupados en clases abiertas .Ejemplo : hacer los clculos para el ejercicio de las notasModa : es el valor de la variable que presenta mayor frecuencia absoluta . Puedehaber ms de una . Cuando los datos estn agrupados en clases se puede tomar lamarca de clase o utilizar la frmula :M0 =Linf +2 11d dd+ donde : Linf =lmite inferior de la clase modal , =amplituddel intervalo , d1=diferencia entre la fi de la clase modal y la fi de la clase anterior yd2 =diferencia entre la fi de la clase modal y la fi de la clase posterior .Tambin se puede hacer grficamente :23 11132575012345678 La moda si sirve para datos cualitativos , pero no tiene por qu situarse en la zona central del grfico .Ejemplo : en el ejercicio de las notas la moda sera x=8Mediana : es el valor de la variable tal que el nmero de observaciones menoresque l es igual al nmero de observaciones mayores que l . Si el nmero de datoses par , se puede tomar la media aritmtica de los dos valores centrales .Cuando los datos estn agrupados la mediana viene dada por el primer valor de lavariable cuya Fi excede a la mitad del nmero de datos . Si la mitad del nmero dedatos coincide con Fi se tomar la semisuma ente este valor y el siguiente .Cuando los datos estn agrupados en clases se puede utilizar reglas de tres o lafrmula :M =Linf +i1 ifF2N Grficamente se hace a partir del polgono de frecuencias acumuladas .Ejemplo : En el caso de las notas podras ordenar de menor a mayor los datos yobtendramos : 0 0 1 1 1 2 3 4 5 5 5 6 6 7 77 7 7 8 8 8 8 8 8 8 9 9 9 9 9dato nmero 15-16 (por ser par)luego la mediana sera 7Tambin se podra observar las Fi y ver que en el 7 se excede a la mitad del n de datos ,es decir , sobrepasa el 15 .Cuantiles : son parmetros que dividen la distribucin en partes iguales , as porejemplo la mediana los divide en dos partes iguales , los cuartiles son tres valoresque dividen a la serie de datos en cuatro partes iguales , los quintiles son cuatrovalores que lo dividen en 5 partes , los deciles en 10 y los percentiles en 100 . Secalculan de la misma manera que la mediana . Tambin se puede utilizar la frmula : Cn =Linf +i1 ifF100Nn donde n es elvalor que deja el n% de valores por debajo de l .Medidas de dispersin :Rango o recorrido : es la diferencia entre el mayor valor y el menor . Dependemucho de los valores extremos por que se suele utilizar el rango intercuartlico =Q3- Q1 o el rango entre percentiles =P90 - P10Ejemplo : Para el caso de las notas sera 9 - 0 =9Varianza s2 : es la media aritmtica de los cuadrados de las desviaciones respecto ala media ( desviacin respecto a la media d =xi -x) .s2 =( ) ( )N....... x x x x2221+ + =( )Nx x2i s2 =( ) ( ).... f f....... x x f x x f2 122 221 1+ ++ + =( )Nx x f2i i Al igual que la media en el caso de que los datos estn agrupados en clases , setomar la marca de clase como xi .Otra forma de calcular s2 es :s2=( )Nx x f2i i =( )= +Nx x 2 x x fi2 2i i 2 22i ix 2 xNx f +=22i ixNx fSe llama desviacin tpica s a la raz cuadrada de la varianza . Es ms til que lavarianza ya que tiene las mismas dimensiones que la mediaEjemplo : Hacer los clculos para el ejercicio de las notas-Coeficiente de variacin : es el cociente entre la desviacin tpica y la mediaaritmtica . Valores muy bajos indican muestras muy concentradas .C.V. =xDISTRIBUCIONES BIDIMENSIONALES :Variables estadsticas bidimensionales : es cuando al estudiar un fenmenoobtenemos dos medidas x e y , en vez de una como hemos hecho hasta ahora .Ejemplo : pulso y t de los enfermos de un hospital , ingresos y gastos de las familias delos trabajadores de una empresa , edad y n de das que faltan al trabajo los productoresde una fbrica .Tipos de distribuciones bidimensionales :-cualitativa - cualitativa-cualitativa - cuantitativa ( discreta o continua )-cuantitativa ( discreta o continua ) - cuantitativa ( discreta o continua )Tipos de tablas :-Tabla de dos columnas xi , yi ( pocos datos )-Tabla de tres columnas xi , yi , fi ( muchos datos y pocos valores posibles )-Tablas de doble entrada ( muchos datos y muchos valores posibles )x1x2...... xnf*jy1f11f21...... fn1f*1y2f12f22...... fn2f*2..... ..... ...... ...... ...... ......ymf1mf2m...... fnmf*mfi*f1*f2*...... fn*f**=NDiagramas de dispersin :Si hay pocos datos ( tabla de dos columnas ), se representan las variables en los ejes x ey .Si hay muchos datos pero muy agrupados ( tabla de tres columnas y tablas de dobleentrada ), se hace igual pero con los puntos ms gordos segn la fi ,o se pintan muchospuntos juntos , o se pinta en tres dimensiones x , y , fi , con lo que obtendramos undiagrama de barras en tres dimensiones .Si hay muchos datos y muchos valores posibles , se pueden agrupar en clases , y seutilizan los estereogramas ( 3 dimensiones ) en los que el volumen de cada prisma esproporcional a la frecuencia . Tambin se puede tomar la marca de clase de losintervalos y tratar la variable continua como si fuese discreta .Clculo de parmetros :-Cuando hay pocos datos o estn muy agrupados ( tablas de 2 o 3 columnas )

Nf xxi i = Nf yyi i =( )Nx x fs2i i 2x= ( )Ny y fs2i i 2y=Aparece un parmetro nuevo que es la covarianza que es la media aritmtica de lasdesviaciones de cada una de las variables respecto a sus medias respectivas . ( )( )Ny y x x fsi i ixy = = y xNy x fi i i -Cuando hay muchos datos ( tablas de doble entrada )= =Nf xNf xxij i * i i = =Nf yNf yyij j j * j( ) ( ) ===2 2i ij2i ij2i * i 2xx x fNx x fNx x fs( )( ) ===2 2j ij2jij2j j *2yy y fNy y fNy y fs ( )( )Ny y x x fsj i ijxy = = y xNy x fj i ij Correlacin o dependencia : es la teora que trata de estudiar la relacin o dependenciaentre las dos variables que intervienen en una distribucin bidimensional , segn seanlos diagramas de dispersin podemos establecer los siguientes casos :-Independencia funcional o correlacin nula : cuando no existe ninguna relacinentre las variables .( r =0 )-Dependencia funcional o correlacin funcional : cuando existe una funcin talque todos los valores de la variable la satisfacen ( a cada valor de x le correspondeuno solo de y o a la inversa ) (r = 1)-Dependencia aleatoria o correlacin curvilinea ( lineal ): cuando los puntos deldiagrama se ajustan a una linea recta o a una curva , puede ser positiva o directa , onegativa o inversa ( -1