Estadisitca descritiva

  • Upload
    yam

  • View
    213

  • Download
    0

Embed Size (px)

DESCRIPTION

Documento que habla de historia en relaciona a la estadistica dsecriptiva

Citation preview

  • 1Estadstica descriptiva

    Introduccin

    En cualquier anlisis estadstico, la primera aproximacin a los datos se realiza mediante la obtencinde los estadsticos descriptivos de las variables implicadas, as como distintos grficos.

    Los estadsticos y los grficos usados dependen de la naturaleza de las variables que, de un modogeneral, se pueden clasificar en cualitativas y cuantitativas.

    Una de las personas que contribuyeron en gran medida a la difusin de la estadstica descriptiva fue laenfermera inglesa Florence Nightingale (1820-1910), que durante la guerra de Crimea recogi de formasistemtica informacin sobre los pacientes, mejorando notablemente el sistema sanitario enhospitales.Florence Nightingale fue la precursora de la presentacin grfica de resultados.

    Florence Nightingale

  • 2

  • 3Frmulas bsicas

    Descriptiva cualitativaLos principales estadsticos descriptivos para variables cualitativas son: las frecuencias absolutas y lasfrecuencias relativas. En cuanto a grficos, los ms usados son los de barras.

    Frecuencias absolutas

    Se calculan contando el nmero de veces que aparece cada uno de los valores de la variable.

    Frecuencias relativas

    Se calculan como el porcentaje de las frecuencias absolutas relativo al tamao muestral.

    Tablas de contingencia

    Cuando se est describiendo dos variables cualitativas conjuntamente, se utilizan las tablas decontingencia, que son tablas formadas por celdas, en las que se recoge la frecuencia absoluta delnmero de individuos para cada una de las posibles combinaciones de niveles de las dos variables. Estasfrecuencias absolutas se pueden relativizar respecto al total de cada nivel en cada variable (porcentajede filas y columnas) o respecto al total de individuos (porcentaje total).

    Descriptiva cuantitativaLos principales estadsticos descriptivos para una variable cuantitativa son: media aritmtica, mediana,moda, media geomtrica, varianza, desviacin tpica, mnimo, mximo, amplitud, cuartiles, rangointercuartlico, coeficiente de asimetra, coeficiente de asimetra estandarizado, coeficiente decurtosis, coeficiente de curtosis estandarizado y coeficiente de variacin. En cuanto a grficos los msusados son los histogramas y los diagramas de caja.

    Media aritmticaLa media aritmtica se calcula como la suma de los valores de las observaciones dividido por el tamaomuestral (n):

    n

    xx

    n

    1ii

    ==

    donde xi indica el valor que toma la variable del estudio x para el individuo i. La media aritmtica essensible a los datos extremos (outliers), por eso a veces se utiliza la mediana. Normalmente se llama ala media aritmtica simplemente media.

    MedianaLa mediana (med) se calcula ordenando los datos de menor a mayor y tomando el valor del medio que esel que deja un 50% de observaciones a su izquierda y un 50% a su derecha. En el caso de que el nmerode observaciones sea par, la mediana se calcula como la semisuma de los dos valores centrales. Paradistribuciones simtricas la mediana coincide con la media.

    ModaEs el valor que ms se repite. Tiene sentido en variables con pocos niveles.

    Media geomtricaLa media geomtrica (mg) se calcula como la raz ensima del producto de los valores de lasobservaciones, es decir:

  • 4n1

    n

    1iin

    n

    1ii xxmg

    ==

    ==

    La media geomtrica coincide con la exponencial de la media aritmtica de los logaritmos neperianos delas observaciones. Se usa cuando los datos presentan asimetra positiva (valores elevados alejados de lamediana), que suele desaparecer al tomar logaritmos neperianos. No se puede usar la mg si hay valoresnegativos y siempre es menor que la media aritmtica.

    VarianzaLa varianza proporciona un valor de dispersin (inercia) de la variable alrededor de su media (centro degravedad). Se calcula como la media del cuadrado de las desviaciones de las observaciones a la media.Se elevan al cuadrado las desviaciones alrededor de la media para que no se compensen las diferenciasnegativas y positivas, ya que de no hacerlo se demuestra que la media de las desviaciones de lasobservaciones a la media es de cero. Si se pretende usar con propsitos de estimacin de la varianzapoblacional, conviene usar n - 1 en vez de n a la hora de calcular la media del cuadrado de lasdesviaciones, con lo que la expresin para la varianza muestral es:

    ( )=

    --

    =n

    1i

    2

    i2 xx

    1n1

    s

    Desviacin tpicaLa desviacin tpica o desviacin estndar se calcula como la raz cuadrada positiva de la varianza:

    ( )=

    --

    +=+=n

    1i

    2

    i2 xx

    1n1

    ss

    A diferencia de la varianza se expresa en las mismas unidades en que venga dada la variable.

    Mnimo, mximo, amplitud

    El mnimo es el menor valor observado, el mximo es el mayor valor observado y la amplitud (a vecesllamada rango) es la diferencia entre el mximo y el mnimo. El mnimo y el mximo son tiles paradetectar valores no plausibles. La amplitud puede considerarse como medida de dispersin, pero tieneel inconveniente de que slo tiene en cuenta dos observaciones de la muestra y que depende del tamaomuestral en el sentido de que nuevas observaciones no pueden disminuir la amplitud, slo aumentarla.

    Cuartiles y rango intercuartlicoExisten tres cuartiles: cuartil inferior, cuartil medio y cuartil superior. El cuartil inferior se calculaordenando los datos de menor a mayor y tomando el valor que deja un 25% de observaciones a suizquierda y un 75% a su derecha. El cuartil medio es la mediana. El cuartil superior es aquel valor, queen los datos ordenados, deja un 75% a su izquierda y un 25% a su derecha. El rango intercuartlico secalcula como la diferencia entre el cuartil superior e inferior, y se puede considerar, por tanto, comouna medida de dispersin.

    Coeficiente de asimetraEl coeficiente de asimetra da una medida del grado de asimetra de la distribucin de datos en torno asu media. Se calcula como:

    ( )( )( )

    =

    ---

    n

    1i

    3

    i3 xxs1

    2n1nn

    El coeficiente de asimetra no tiene unidades, es adimensional. Si el coeficiente de asimetra esnegativo indica que la distribucin tiende a tener los valores extremos a la izquierda de la media, si espositivo la distribucin tiende a tener los valores extremos a la derecha. Si es nulo, la distribucin essimtrica en torno a su media.

  • 5Coeficiente de asimetra estandarizado

    El coeficiente de asimetra estandarizado se calcula como:

    n6

    asimetra

    Este estadstico se puede usar para contrastar si nuestros datos son simtricos. Se basa en el hechode que el coeficiente de asimetra se distribuye segn una normal de media cero y varianza (6/n), si n >50. Por tanto, valores absolutos del coeficiente de asimetra estandarizado 1.96 son poco frecuentesy llevan a rechazar que asimetra =0. Valores del coeficiente de asimetra estandarizado < 1.96 llevan aaceptar (no rechazar) la simetra. Si se detecta asimetra conviene hacer una transformacin en losdatos.

    Si hay asimetra a la derecha (asimetra positiva) conviene utilizar las transformaciones f(x) = x, f(x)= Ln(x) f(x) = 1/x que corresponden a transformaciones que expanden los valores bajos y comprimenlos altos. Si la asimetra a la derecha no es muy elevada, la raz cuadrada puede que sea suficiente. En elcaso de que s lo sea, puede ser necesario la transformacin neperiano Ln(x) o incluso la inversa (1/x).

    Si hay asimetra a la izquierda (asimetra negativa) conviene utilizar la transformacin f(x) = x2 quecomprime los valores pequeos y expande los valores grandes.

    Coeficiente de curtosis

    El coeficiente de curtosis (apuntamiento) mide si la distribucin de los datos tiene un nmero devalores extremos menores que la normal (curtosis > 0 , leptocrtica), mayores que la normal (curtosis 200. Por tanto, valores absolutos del coeficiente de curtosis estandarizado 1.96 son pocofrecuentes y llevan a rechazar que curtosis =0. Valores del coeficiente de curtosis estandarizado < 1.96llevan a aceptar (no rechazar) que los datos son mesocrticos.

    Coeficiente de variacin

    El coeficiente de variacin se calcula como:

    x

    s

    Es por tanto una medida de dispersin relativa y se suele expresar en tanto por ciento.

    HistogramaEn un histograma se puede ver claramente cul es la distribucin de los datos. Normalmente, para elnmero de clases del histograma se toma la raz cuadrada del nmero de casos.

  • 6Diagrama de caja

    El diagrama de caja es til para visualizar los estadsticos de amplitud, mediana, cuartiles y valoresextremos. El diagrama de caja consta de una caja determinada por el primer y tercer cuartil, y por unossegmentos de longitud 1.5 veces el rango intercuartlico. Los valores superiores a 3 veces el rangointercuartlico se consideran valores extremos. Dentro de la caja se representa mediante una lnea lamediana (segundo cuartil) y mediante un rombo la media.

  • 7 Ejemplo

    Se supone que se tienen los siguientes datos experimentales, correspondientes a 40 individuos de losque se ha recogido informacin de una variable Var1:

    96 78 76 62 80 66 88 90 76 9086 80 92 72 72 82 84 96 78 6662 88 76 80 66 74 66 86 68 6468 72 68 68 70 68 74 70 70 70

    Calcular para dicha variable los siguientes estadsticos descriptivos: media aritmtica, mediana, moda,media geomtrica, varianza, desviacin tpica, mnimo, mximo, amplitud, cuartiles, rango intercuartlico,coeficiente de asimetra, coeficiente de asimetra estandarizado, coeficiente de curtosis, coeficientede curtosis estandarizado y coeficiente de variacin.

    Descriptiva cuantitativa

    Media aritmticaLa media aritmtica se calcula como la suma de los valores de las observaciones dividido por el tamaomuestral n:

    95.7540

    3038n

    xx

    n

    1ii

    ===

    =

    donde xi indica el valor que toma la variable del estudio (se representa con x a la variable Var1) para elindividuo i.

    MedianaEn este caso, como n = 40 es par, la mediana es:

    742

    7474med =

    +=

    Moda

    Es el valor que ms se repite. En este caso 68.

    Media geomtricaLa media geomtrica (mg) se calcula como la raz ensima del producto de los valores de lasobservaciones, es decir:

    ( ) 3846.7510234.1xxmg 401

    75n1

    n

    1iin

    n

    1ii ==

    ==

    ==

    VarianzaLa expresin para la varianza muestral es:

    ( ) 9718.901

    1

    1

    22 =--

    = =

    n

    ii xxn

    s

    Desviacin tpicaLa desviacin tpica o desviacin estndar se calcula como la raz cuadrada positiva de la varianza:

  • 8( ) 5379.9xx1n

    1ss

    n

    1i

    2

    i2 =-

    -+=+=

    =

    Mnimo, mximo, amplitudPara los datos del ejemplo: el mnimo es 62, el mximo es 96 y la amplitud 34.

    Cuartiles y rango intercuartlico

    Para los datos del ejemplo el cuartil inferior es 68, el cuartil medio es 74, el cuartil superior es 83 elrango intercuartlico es 15.

    Coeficiente de asimetraEl coeficiente de asimetra da una medida del grado de asimetra de la distribucin de datos en torno asu media. Se calcula como:

    ( )( )( ) 5493.0xx

    s1

    2n1nn n

    1i

    3

    i3 =--- =Coeficiente de asimetra estandarizadoEl coeficiente de asimetra estandarizado se calcula como:

    4184.1

    406

    5493.0

    n6

    asimetra==

    Coeficiente de curtosis

    El coeficiente de curtosis se calcula como:( )

    ( )( )( )( ) ( )( )

    ( )( ) 7245.03n2n1n1n

    3xxs1

    3n2n1n1nn n

    1i

    4

    i4 -=----

    -----

    + =

    Coeficiente de curtosis estandarizadoEl coeficiente de curtosis estandarizado se calcula como:

    9353.0

    4024

    7245.0

    n24

    curtosis-=

    -=

    Coeficiente de variacinEl coeficiente de variacin se calcula como:

    125581.0x

    s=

    Para los datos del ejemplo, el coeficiente de variacin es del 12.5581%.