10
Unidad 1 Estadística descriptiva 1.1 Introducción, notación sumatoria En estadística se requiere la suma de grandes masas de datos y es pertinente tener una notación simplificada para indicar la suma de estos datos. Así, si una variable se puede denotar por X, entonces las observaciones sucesivas de esta variable se escriben La letra griega sigma mayúscula (Σ) se emplea para indicar la suma de estas en observaciones. La notación se lee: Suma de X sub-i (o sigma sub-i) donde i asume todos los valores de 1 hasta en, o simplemente suma de X sub-i donde i va de 1 a n. Las sumatorias se pueden representar bajo dos tipos de notaciones: • Notación suma abierta.- Esta notación va de una representación de sumatoria a cada uno de los elementos que la componen • Notación suma pertinente.- Esta notación es al contrario de la suma abierta, va de la representación de cada uno de los elementos de una sumatoria a su representación matemática resumida, 1.1.1 Datos no agrupados Los datos no agrupados son los datos sin procesar, y las estadísticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los análisis Es el conjunto de datos obtenidos en la recopilación, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados. 1.1.2 Medida de tendencia central Media Aritmética La media aritmética de n observaciones de la variable X se denotará por el símbolo y se define como la suma de ellas dividida por n. Simbólicamente: Ejemplo: La media aritmética de los números 3, 9, 12, 5 y 6 es: En la figura es claro que la media aritmética corresponde geométricamente al punto de equilibrio de los datos. Mediana La mediana (Me) de un conjunto de n números ordenados de menor a mayor, es el número central en el arreglo. Si n es un número impar (non), sólo hay un valor central en el arreglo. Si n es un número par, hay dos valores centrales y la mediana debe tomarse como la media aritmética de estos dos valores. Ejemplo: Calcular la mediana de los números 3, 9, 12, 5 y 6 Primero hay que ordenar los números de menor a mayor: 3, 4, 6, 9, 12

Unidad 1

Embed Size (px)

DESCRIPTION

estadistica

Citation preview

Unidad 1Estadstica descriptiva1.1 Introduccin, notacin sumatoriaEn estadstica se requiere la suma de grandes masas de datos y es pertinente tener una notacin simplificada para indicar la suma de estos datos. As, si una variable se puede denotar por X, entonces las observaciones sucesivas de esta variable se escribenLa letra griega sigma mayscula () se emplea para indicar la suma de estas en observaciones.La notacin se lee:Suma de X sub-i (o sigma sub-i) donde i asume todos los valores de 1 hasta en, o simplemente suma de X sub-i donde i va de 1 a n.Las sumatorias se pueden representar bajo dos tipos de notaciones: Notacin suma abierta.- Esta notacin va de una representacin de sumatoria a cada uno de los elementos que la componen Notacin suma pertinente.- Esta notacin es al contrario de la suma abierta, va de la representacin de cada uno de los elementos de una sumatoria a su representacin matemtica resumida,1.1.1 Datos no agrupadosLos datos no agrupados son los datos sin procesar, y las estadsticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los anlisisEs el conjunto de datos obtenidos en la recopilacin, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlosCuando la muestra que se ha tomado de la poblacin o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.

1.1.2 Medida de tendencia centralMedia AritmticaLa media aritmtica de n observaciones de la variable X se denotar por el smboloy se define como la suma de ellas dividida por n. Simblicamente:Ejemplo:La media aritmtica de los nmeros 3, 9, 12, 5 y 6 es:En la figura es claro que la media aritmtica corresponde geomtricamente al punto de equilibrio de los datos.MedianaLa mediana (Me) de un conjunto de n nmeros ordenados de menor a mayor, es el nmero central en el arreglo. Si n es un nmero impar (non), slo hay un valor central en el arreglo. Si n es un nmero par, hay dos valores centrales y la mediana debe tomarse como la media aritmtica de estos dos valores.Ejemplo:Calcular la mediana de los nmeros 3, 9, 12, 5 y 6Primero hay que ordenar los nmeros de menor a mayor: 3, 4, 6, 9, 12Despus se debe verificar si el valor de n es par o impar (non), en caso de ser par se toman los dos valores que estn en el centro. Me = 6ModaLa moda (Mo) de un conjunto de datos es el valor (si existe) que ocurre con mayor frecuencia. Si es un valor nico decimos que la distribucin de frecuencias es unimodal, si tiene dos o ms valores con la misma frecuencia mxima, decimos que la distribucin es bimodal, trimodal, entre otras.La moda es una medida de tendencia central que es poco usada por las siguientes razones:a) Puede ocurrir que no exista.b) A menudo no es un valornico.

1.1.3 Medidas de posicinEs un nmero que se escoge para hacer referencia a un conjunto de datos. Normalmente se dividen entren cuatro, diez y cien (cuartiles, deciles, perciles)

1.1.4 Medidas de dispersin.Cuando se tiene una muestra de datos obtenida de una poblacin cualquiera, es importante determinar sus medidas de tendencia central as como tambin es bsico el determinar qu tan dispersos estn los datos en la muestra, por lo que se hace necesario determinar su rango, la varianza, la desviacin estndar, etc., ya que una excesiva variabilidad o dispersin en los datos indica la inestabilidad del proceso en anlisis en la mayora de los casos.

Rango o recorrido.El rango es la diferencia entre el valor mayor y el valor menor encontrado en la muestra, tambin se le denomina recorrido ya que nos dice entre que valores hace su recorrido la variable de inters; y se determina de la siguiente manera:

R = VM VmDnde:

R = rango o recorridoVM = valor mayor en la muestraVm = valor menor en la muestra

Desviacin absoluta media(). Esta medida de dispersin nos representa la diferencia absoluta promedio que existe entre cada dato que se encuentra en la muestra y la media de los datos y se determina de la siguiente manera:

Dnde:xi = dato i= media aritmtica de la muestran = nmero de datos en la muestra

Por qu sacar el valor absoluto de las diferencias entre cada dato y la media aritmtica? Si solo se hicieran diferencias entre cada dato y la media aritmtica, estas tendran signos positivos y negativos ya que algunos datos son menores que la media y otros son mayores que la media, luego al sumar las diferencias, con sus signos correspondientes, stas se iran anulando unas con otras y no sera posible medir leal grado de alejamiento promedio de los datos en la muestra.

Varianza o variancia (s2).Es el promedio de las diferencias elevadas al cuadrado entre cada valor que se tiene en la muestra (xi) y la media aritmtica () de los datos y se determina de la siguiente manera:Donde n es el nmero de datos en la muestra.

Desviacin estndar (s).Es la desviacin o diferencia promedio que existe entre cada dato de la muestra y la media aritmtica de la muestra. Y se obtiene a partir de la varianza, sacndole raz cuadrada.

Medidas de formas 1.1.5

Las medidas de forma permiten comprobar si una distribucin de frecuencia tiene caractersticas especiales como simetra, asimetra, nivel de concentracin de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribucin.Las medidas de forma son necesarias para determinar el comportamiento de los datos y as, poder adaptar herramientas para el anlisis probabilstico.

Distribucin simtricaAl dividir una distribucin de frecuencia mediante la mediana, ambas reas resultantes son iguales, es decir, los datos se distribuyen de la misma forma y el rea abarcada por ambos lados es equivalente (50% de los datos se encuentran distribuidos en ambas secciones).

Distribucin asimtricaLos datos no se distribuyen de forma uniforme y similar en las reas que dan como resultado al dividir la distribucin de frecuencia por la mediana.

1.2. Datos agrupados y no agrupados

Los datos no agrupados son los datos sin procesar, y las estadsticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los anlisisEs el conjunto de datos obtenidos en la recopilacin, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos.Cuando la muestra que se ha tomado de la poblacin o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.Los datos agrupados significan que hay menos datos con los cuales trabajar y mis estadsticas sern aproximadas.Los datos agrupados se refieren al hecho de que estn ordenados, clasificados y contados.Para agrupar u organizar un conjunto de datos se construye una tabla llamada tabla de frecuencias o distribucin de frecuencias simple.El primer paso para organizar los datos consiste en identificar el tipo de datos que se tienen, los cuales pueden ser cualitativos o cuantitativos.Cuando los datos corresponden a valores cualitativos se clasifican en varias clases o categoras, que corresponden a las cualidades, valores o atributos obtenidos de cada elemento, despus se efecta una tabulacin, es decir, se realiza un conteo de los elementos, que pertenece a cada clase o categora. Para llevar un orden y no omitir algn valor, se asigna una columna para la tabulacin y se coloca una marca para cada elemento de la muestra o poblacin, donde corresponda su categora.

Una vez terminada la tabulacin, se cuentan los elementos que contiene cada clase o categora y se anota el valor en otra columna que se denomina frecuencia.As, la frecuencia es el nmero de elementos que contiene cada clase o categora en un conjunto de datos.

1.2.1 Tabla de Frecuencia

Este procedimiento es aconsejable para aquellos casos en los que queremos analizar los resultados de una serie de variables, que tienen todas las mismas categoras de respuesta. Por defecto, las variables forman las columnas y las categoras las filas. Cada casilla muestra el nmero de casos de esa categora. Si lo desea, puede seleccionar una o ms variables de agrupamiento.Una tabla de frecuencias (tambin conocida como tabla de distribucin de frecuencias) es una tabla en la que se organizan los datos en clases, es decir, en grupos de valores que escriben una caracterstica de los datos y muestra el nmero de observaciones del conjunto de datos que caen en cada una de las clases.La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numrico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el nmero de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada.La tabla de frecuencias puede representarse grficamente en un histograma. Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.

MEDIDAS DE TENDENCIA CENTRAL 1.2.2

MEDIA: Media aritmtica, es la que se obtiene sumando los datos y dividindolos por el nmero de ellos. Se aplica por ejemplo para resumir el nmero de pacientes promedio que se atiende en un turno. Otro ejemplo, es el nmero promedio de controles prenatales que tiene una gestante.

MEDIANA: Corresponde al percentil 50%. Es decir, la mediana divide a la poblacin exactamente en dos. Por ejemplo el nmero mediana de hijos en el centro de salud X es dos hijos. Otro ejemplo es el nmero mediana de atenciones por paciente en un consultorio.

MODA: Valor o (valores) que aparece(n) con mayor frecuencia. Una distribucin unimodal tiene una sola moda y una distribucin bimodal tiene dos. til como medida resumen para las variables nominales. Por ejemplo, el color del uniforme quirrgico en sala de operaciones es el verde; por lo tanto es la moda en colores del uniforme quirrgico.

MEDIDAS DE DISPERSIN 1.2.3DESVIACIN ESTNDAR: Llamada tambin desviacin tpica; es una medida que informa sobre la media de distancias que tienen los datos respecto de su media aritmtica, expresada en las mismas unidades que la variable.

LA VARIANZA: Es el valor de la desviacin estndar al cuadrado; su utilidad radica en que su valor es requerido para todos los procedimientos estadstico.

1.2.4 Medidas de asimetra y curtosis.El objetivo de la medida de la asimetra es, sin necesidad de dibujar la distribucin de frecuencias, estudiar la deformacin horizontal de los valores de la variable respecto al valor central de la media. Las medidas de forma pretenden estudiar la concentracin de la variable hacia uno de sus extremos.

Asimtrica a la izquierdaLa curva de la grfica encuentra su punto ms alto en la parte izquierda

Asimtrica a la derecha.La curva de la grfica encuentra su punto ms alto en la parte derecha

CurtosisMesocurtosis, si la distribucin de los datos es normal y el coeficiente de curtosis es cero.Leptocurtosis, si est ms apuntado que lo normal y el coeficiente de curtosis es positivoPlaticurtosis, si esta menos apuntado y el coeficiente es negativo.

1.3.1 Diagramas de dispersinCuando entre dos variables existe una relacin nica entre ellas, se interesa investigar el grado de correlacin entre ellas.

La forma de construir un diagrama de dispersin es tomando dos puntos relacionados entre s y acomodndolos en un plano cartesiano y viendo la tendencia que sigue (se necesita por lo menos 40 pares de datos para hacer un diagrama exacto).

1.3.2 Diagrama de tallo y hojaLos valores de los datos se utilizan para efectuar tal ordenacin. El tallo se forma con el (los) primer(os) dgito(s) del dato, mientras que la hoja se forma con los dems dgitos siguientes. Por ejemplo, el valor numrico 458 se dividira en 45-8

1.3.3 HistogramasEl trabajo de control de calidad requiere tomar datos, organizarlos y analizarlos. Una de las formas ms tiles para organizarlos y hacer su anlisis es presentarlos en histogramas. Excel provee recursos para hacer histogramas con colecciones desorganizadas de datos. Lo primero que necesitamos es tener los datos en una hoja de Excel, por lo general en la columna A. A veces es necesario que los datos se mantengan en el orden en el que fueron colectados, es decir, como aparecen en la columna A. Excel puede ordenarlos de menor a mayor o viceversa. De ser necesario ordenarlos de cualquier forma, y si tambin deseamos conservarlos en su orden original, los copiamos de la columna A y los pasamos a la B. Una vez los tengamos en B, los seleccionamos y pulsamos el botn .sort ascending en el toolbar. Como resultado se ordenan los datos de menor a mayor. En esta forma notamos que en la celda B1 se encuentra el nmero ms pequeo de la coleccin, mientras que el ms grande est al final, en la ltima celda ocupada de la columna B. Es posible que los datos sean tan numerosos como 65,536, que es el mximo que puede manejar una sola hoja de Excel, por lo que llegar al final de ellos con el ratn puede consumir mucho tiempo. Existe una forma rpida de hacerlo oprimiendo simultneamente las teclas .Ctrl+End. Asimismo, podemos regresar a B1 oprimiendo .Ctrl+Home. Es necesario que anotemos el nmero de la ltima celda de datos en la columna B porque las operaciones que vamos a describir en seguida as lo requieren

1.3.4 OjivasUna distribucin de frecuencia acumulativa nos permite ver cuantas observaciones se hallan por arriba o por debajo de ciertos valores, en lugar de limitarnos a anotar los nmeros de elementos dentro de los intervalos. Por ejemplo, si queremos saber cuntos galones contienen menos de 17.0 ppm, podemos servirnos de una tabla que incluya frecuencias acumulativas menores que en nuestra muestra.Se llama ojiva a la grfica de una distribucin de frecuencia acumulativa. Los puntos graficados representan la cantidad de galones que tienen menos cloro que las partes por milln indicadas sobre el eje horizontal.En ocasiones la informacin que se utiliza se presenta a partir de frecuencias mayores que. La ojiva apropiada para tal informacin tendr una pendiente hacia abajo y hacia la derecha.Tambin es posible construir una ojiva de una distribucin de frecuencia relativa, de la misma manera que una absoluta.

1.3.5 Polgono de FrecuenciaPolgono de frecuenciaes el nombre que recibe unaclase de grficoque se crea a partir de unhistograma de frecuencia. Estos histogramas emplean columnas verticales para reflejarfrecuencias): el polgono de frecuencia es realizado uniendo los puntos de mayor altura de estas columnas.Es decir, por tanto, podramos establecer que un polgono de frecuencia es aquel que se forma a partir de la unin de los distintos puntos medios de las cimas de las columnas que configuran lo que es un histograma de frecuencia. Este se caracteriza porque utiliza siempre lo que son columnas de tipo vertical y porque nunca debe haber espacios entre lo que son unas y otras.En las ciencias sociales, en las ciencias naturales y tambin en las econmicas es donde con ms frecuencia se hace uso de estos mencionados histogramas ya que se emplean para llevar a cabo lo que es la comparacin de los resultados de un proceso determinado.

Se conoce comopolgonos de frecuencia para datos agrupadosa aquellos que se desarrollan mediante la marca de clase que tiene coincidencia con el punto medio de las distintas columnas del histograma. En el momento de la representacin de todas las frecuencias que forman parte de una tabla de datos agrupados, se genera el histograma defrecuencias acumuladasque posibilita la diagramacin del polgono correspondiente.Un polgono de frecuencia, por ejemplo, permite reflejar lastemperaturas mximas promediode una ciudad en un determinado periodo temporal. En eleje X(horizontal), deben indicarse los meses del ao (enero, febrero, marzo, abril, etc.). En eleje Y(vertical), en cambio, se registran las temperaturas ms altas promedio de cada mes (28, 26, 22). El polgono de frecuencia se crear al unir, mediante unsegmento, las diversas temperaturas ms elevadas promedio.Los polgonos de frecuencia se suelen usar cuando se pretende retratar varias distribuciones distintas o la clasificacin cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta en el mismo dibujo.El punto de ms altura de un polgono de frecuencia equivale a la mayor frecuencia, mientras que el rea que se sita debajo de la curva incluye todos los datos que existen. Cabe recordar que la frecuencia es larepeticin mayor o menor de un evento, o el nmero de veces que un acontecimiento peridico se reitera en una unidad temporal.Dado el valor y la utilidad que tienen los citados polgonos hay que resaltar que estos se pueden confeccionar de una manera muy sencilla y rpida. En concreto, se da la oportunidad de acometerlos mediante un programa informtico que se ha convertido en uno de los ejes claves del funcionamiento de cualquier empresa. Nos estamos refiriendo al software conocido como Excel.Este es un programa, de Microsoft Office, que se confeccion con el claro objetivo de que sus usuarios pudieran trabajar con lo que son hojas de clculo. Por tal motivo, es lgico que tambin permita la posibilidad de crear polgonos de frecuencia a la hora de comparar cifras y tomar decisiones en base a las mismas.En concreto, para conseguir crear los mismos con Excel se tiene que partir de la existencia de una serie de grficos que se hayan confeccionado previamente para seguidamente desarrollar un conjunto de acciones que den lugar a aquellos.

Diagrama de cajas y de cejasUn diagrama de caja, tambin llamado diagrama de caja y bigotes, est formado por un rectngulo, la caja, y dos segmentos, los bigotes, uno a cada lado del rectngulo. La caja abarca el recorrido intercuartlico, que es el intervalo comprendido entre el primer cuartil q1 y el tercer cuartil q3. Dentro dela caja se representa con un segmento la mediana de la distribucin.

El bigote izquierdo queda determinado por el valor mnimo y el primer cuartil y el derecho por el tercer cual se consideran valores atpicos los menores que q1-1.5 (q3-q1) y los mayores que q3+ 1.5 (q3-q1). Esto quiere decir que la longitud mxima de los bigotes es una vez y media la longitud de la caja (q3-q1). Cuando hay valores atpicos stos se representan fuera del diagrama de caja, mediante asteriscos o puntos. Los diagramas de caja permiten una fcil lectura e interpretacin del tipo de simetra de una distribucin:Es simtrica cuando la media, mediana y moda de la distribucin coinciden y los datos se distribuyen de igual forma a ambos lados de esas medidas.Es asimtrica positiva o sesgada a la derecha, cuando los datos tienden a concentrarse hacia la parte inferior de la distribucin. La media se situara a la derecha de la mediana.Es asimtrica negativa o sesgada hacia la izquierda cuando los datos tienden a concentrarse hacia la parte superior de la distribucin. La media se situara a la izquierda de la mediana. til y el valor mximo, excepto si existen valores atpicos.

Diagrama de sectores.Se toma un crculo y se divide en tantos sectores como clases tengamos, siendo el arco del crculo proporcional a las frecuencias absolutas (tambin lo podemos hacer con las frecuencias relativas o porcentajes)Para determinar el arco circular que corresponde a cada clase relacionamos el total de observaciones con los 360 grados de la circunferencia. Grfica de sectores es configurable, disponemos de varios argumentos, en la funcin hist (), para tal fin:X:Vector de cantidades positivas, los cuales son presentados como las reas en el grfico.labels:Un vector de caracteres strings que dan nombres a las reas.edges:Aproxima la linea exterior circular mediante un polgono con el nmero de lados especificado, que por defecto es 200.clockwise:Argumento lgico, TRUE o FALSE, que indica si la representacin es en sentido anti horario (es decir, matemticamente sentido positivo) o no, el sentido antihorario es la opcin por defecto (FALSE).init.angle:Especifica el ngulo inicial el cual se representar el diagrama (en grados). El valor por defecto es 0 (es decir, a las 3 en punto) a menos que el argumento clockwise est configurado como TRUE entonces, init.angle ser por defecto 90 (grados), (es decir, 12 en punto).density:Dibuja porciones ralladas por pulgada. El valor predeterminado es NULL, significa que no se dibujan lneas de rallado.angle:Pendiente de las lneas de rallado, dado como un ngulo en grados (a la izquierda).radius:La torta es dibujada centrada en una caja cuadrada cuyos lados se mueven de -1 a 1. Si se usan etiquetas largas puede ser necesario usar radios ms pequeos.col:Un vector de colores, para rellenar los sectores del grfico.main:Para dar ttulo al grfico.