95
Para Economía, Contaduría, Administración y Educación Actividades de Aprendizaje prácticas con statgraphics y S.P.S.S Prof. Juan R. Muñoz C.

Libro Análisis de Datos

Embed Size (px)

DESCRIPTION

analisis de datos

Citation preview

  • Para Economa, Contadura,

    Administracin y Educacin

    Actividades de Aprendizaje prcticas

    con statgraphics y S.P.S.S

    Prof. Juan R. Muoz C.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    2

    Definicin de estadstica.

    Divisin de la estadstica (procesos estocsticos)

    Anlisis de datos

    Probabilidad

    Inferencia estadstica

    Medicin

    Escalas de medidas.

    Captulo I

    DEFINICIONES BSICAS.

    MEDICIN Y SUS ESCALAS

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    3

    DEFINICIONES BSICAS:

    Es de suma importancia que el estudiante o usuario trate de comprender las

    definiciones siguientes, puesto que esto, le permitir un mejor desempeo en la

    aplicacin de las herramientas estadsticas.

    Estadstica: Es la ciencia que recopila, organiza, presenta, analiza e interpreta datos

    estadsticos, colaborando en la toma de decisiones estadstica ms efectiva.

    De esta definicin podemos inferir, que al abordar un problema de investigacin,

    el primer paso que debemos dar es la recopilacin de datos, organizarlos de cierta

    manera que puedan presentarse en un grfico y poder analizar e interpretar la

    informacin, para luego tomar una decisin estadstica.

    La estadstica se divide en tres grandes disciplinas:

    Estadstica descriptiva o anlisis de datos: Describe las caractersticas de un conjunto

    de datos, que se pueden organizar, resumir y presentar de manera informativa (numrica

    o grfica). Ejemplo determinar el promedio de ventas de una empresa del estado

    Carabobo. Promedio de notas de los alumnos de estadstica descriptiva en el primer

    parcial.

    Probabilidad: Cuantifica la incertidumbre, lo cual permite hacer afirmaciones

    categricas con una seguridad total sobre el nivel de incertidumbre.

    Inferencia estadstica: Es la ciencia que extrae conclusiones estadsticas, teniendo

    como finalidad investigar como deben ser utilizados los datos estadsticos de una

    muestra (s), para inferir unos resultados acerca de una poblacin de donde provienen los

    datos, basndose en el clculo de probabilidades.

    Poblacin: conjunto de individuos o elementos que poseen ciertas caractersticas

    comunes que se desean estudiar.

    Poblacin finita: Es cuando el nmero de observaciones que la conforman se puede

    expresar cuantitativamente o numricamente. Ejemplo el nmero de alumnos del cuarto

    semestre.

    Anlisis de datos

    Probabilidad

    Inferencia Estadstica

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    4

    Poblacin tericamente infinita: Es aquella que contiene un nmero finito numerable

    de observaciones, pero en cantidades tal que es posible considerarla infinita.

    Muestra: Es una porcin o parte, de una poblacin de inters. Generalmente tomamos

    una muestra de una poblacin para deducir algo acerca de la misma.

    Estrato: Parte de la poblacin no representativa de la misma.

    Carcter: Propiedad, rasgo o cualidad de los elementos de la poblacin.

    Atributo: Carcter cualitativo, no susceptible de ser medido numricamente. Las

    distintas observaciones de un atributo se denominan modalidades y pueden venir

    expresadas en escala nominal (nivel no susceptible de ordenacin) o en escala ordinal

    (modalidad susceptible de ordenacin)

    Datos estadsticos: Son la materia prima de la estadstica, los nmeros que utilizamos

    para interpretar la realidad. En todo problema estadstico hay que recopilar, describir y

    analizar datos, o al menos pensar en la recopilacin, descripcin y anlisis de los

    mismos.

    Anlisis de datos estadsticos: Es la recopilacin, organizacin y resumen de los datos

    con el fin de tomar decisiones estadsticas.

    DATOS ESTADSTICOS

    Cualitativo o

    Atributo

    Cuantitativo o

    Numrico

    Discreto Continuo

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    5

    Variable: Sus distintas observaciones se denominan valores.

    Variable cualitativa o atributo: Es aquella cuando la caracterstica es no numrica.

    Ejemplo: el sexo, la religin, tipo de vehiculo, estado civil etc.

    Variable cuantitativa o numrica: Es cuando la variable estudiada se puede expresar

    numricamente, por ejemplo: monto de las ventas de una empresa, nmero de alumnos

    de la clase de estadstica etc.

    Variable cuantitativa discreta: Son aquellas que pueden asumir solo ciertos valores,

    por lo general surgen del conteo. Ejemplo: el nmero de pisos de un edificio, el nmero

    de vehculos en el estacionamiento de Faces, el nmero de hijos de una familia etc.

    Variable cuantitativa continua: Son aquellas que pueden asumir cualquier valor

    dentro de un intervalo especfico. Ejemplo: la estatura de los alumnos, el peso de las

    alumnas, saldos en tu cuenta bancaria etc.

    Estadstico: Es la caracterstica o medida calculada en una sola muestra. Ejemplo la

    media aritmtica, la moda, la mediana, etc.

    Parmetro: Es la caracterstica o medida calculada en una poblacin completa, cuya

    condicin es ser una constante representativa de la poblacin en estudio, generalmente

    es un promedio. Ejemplo la media poblacional ()

    MEDICIN Y ESCALAS DE MEDIDAS

    Medir

    Es asignar nmeros a observaciones de modo que estos sean susceptibles de

    anlisis por medio de manipulacin y operaciones de acuerdo con ciertas reglas.

    Los datos estadsticos por lo general provienen de medidas sobre individuos o

    unidades experimentales de la poblacin bajo estudio, as obtenemos un conjunto de

    datos, o resultados del experimento estadstico. Para facilitar el anlisis asignaremos

    unos valores a cada unidad experimental de acuerdo con ciertas reglas; as, podemos

    asignar el nmero 1 a los varones y el 2 a las hembras o bien los smbolos V y H.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    6

    Pueden observarse muchas caractersticas diferentes para un mismo individuo,

    estas caractersticas, dependiendo del tipo de valores que originan, pueden medirse con

    cuatro tipos distintos de escalas de medidas.

    Escala nominal: es la forma ms simple de observacin, es la clasificacin de

    individuos en clases o categoras mutuamente excluyentes, y que simplemente pueden

    distinguirse entre s, pero no compararse, ni realizar entre ellas operaciones aritmticas.

    En este tipo se incluyen caractersticas tales como profesin, nacionalidad, grupo

    econmico, estado civil. Como estadsticas descriptivas, solo admite el clculo de la

    moda, as como tambin el conteo de las frecuencias.

    Dentro del campo de los mtodos no paramtricos acepta el uso de la prueba

    Chi-cuadrado y como medida de asociacin admite el uso del coeficiente de

    contingencia, coeficiente de correlacin entre las variables nominales dicotmicas,

    razones proporciones y porcentajes.

    Escala ordinal: Utilizaremos este nivel cuando los elementos de un conjunto

    pueden ser ordenados en funcin de una caracterstica en particular por ejemplo:

    clasificar la familia por orden socio-econmico, los estudiantes de acuerdo como

    terminaron el examen o segn su rendimiento, escalafn universitario etc. Este nivel

    admite las siguientes caractersticas:

    Constituye un nivel superior al nominal, por lo tanto toda variable que posea

    este nivel, es por que es tambin nominal.

    Los nmeros asignados a las clases, deben tener un rango especfico u orden ,

    sin importar el nmero en s , adems no importa que la asignacin se haga de

    mayor a menor o viceversa, en esta escala es posible que 1 sea mayor que 2, la

    diferencia entre estos dos nmeros no tiene ningn significado, solo indica la

    forma de transmitir la informacin, por lo tanto, no ser posible realizar ningn

    tipo de operacin aritmtica, ya que estos resultados careceran de significado

    estadstico.

    Como estadstica descriptiva, las ms apropiadas para describir este tipo de

    nmero es la mediana. Dentro del campo no paramtrico es posible realizar la

    prueba de los signos. En relacin con las medidas de asociacin pueden

    utilizarse el coeficiente de correlacin por rango de Sperman, Tau de Kendall y

    el coeficiente de correlacin biserial.

    Escala de intervalo: esta escala, adems de clasificar y ordenar los datos, cuantifica

    la diferencia entre dos clases, es decir, puede indicar cuanto ms significa una categora

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    7

    que otra. Para ello es necesario que se defina una unidad de medida y un origen, que es

    por naturaleza arbitrario, adems permite las operaciones aritmticas. Admite las

    siguientes caractersticas:

    El nmero que se le asigne a cada elemento u objeto, corresponde a las unidades

    de medida que posea, esto es: puntos, aos, grados, ventas etc.

    El punto cero es arbitrario solo constituye un punto de referencia.

    Cuando se codifica en una escala de intervalo el 1 constituye una unidad menor

    que el 2.

    El hecho de que el punto cero sea arbitrario hace que en dicho nivel solo puedan

    establecerse comparaciones en relacin a las distancias entre intervalos y no

    diferencias relativas a cantidades.

    Como estadstica descriptiva las operaciones que admite son la media aritmtica,

    la mediana, moda, desviacin estndar, coeficiente de correlacin de Pearson,

    etc.

    Escala de razn: es idntica a la anterior, pero adems existe un cero absoluto y es

    el nivel ms alto de medicin, lo cual implica poseer todas las caractersticas de los

    anteriores niveles. Por ejemplo: volumen de venta, costo de produccin, edad,

    cotizacin del dlar, etc. Siendo sus caractersticas bsicas las siguientes:

    El cero absoluto significa total carencia del atributo o propiedad que se est

    midiendo.

    La diferencia entre dos nmeros es totalmente significativa, es decir, a dos

    diferencias iguales en el atributo estudiado corresponde igual diferencia entre los

    nmeros asignados y adicionalmente como el punto cero es real, es posible hacer

    afirmaciones como sta: el ejecutivo X tiene el doble de las ventas del ejecutivo

    Y

    Como estadstica descriptiva admite todas las del nivel anterior, adems del

    coeficiente de variacin que es una medida relativa de dispersin, ya que este

    coeficiente requiere del conocimiento del punto cero.

    El nivel escogido para medir una caracterstica condiciona el resto del anlisis

    estadstico, pues las tcnicas utilizadas deben tener en cuenta la escala que se ha

    empleado. En general cuanto mayor sea el nivel utilizado, mayor nmero de tcnicas

    podrn aplicarse y mayor precisin se lograr, por lo que se recomienda usar la escala

    de intervalo o la de razn siempre que sea posible.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    8

    Actividades

    1. Redacte un ejemplo de caractersticas estadsticas en las siguientes escalas de

    medida: Nominal, Ordinal, Intervalo, de razn.

    2. Hemos realizado una encuesta a un grupo de ejecutivos de una empresa,

    clasifique las siguientes caractersticas, segn su escala de medida y tipo de

    variable: peso, volumen de ventas, religin, nmero de hermanos, tiempo que

    tarda en llenar la encuesta, si tiene o no carnet de club privado, deporte

    preferido.

    3. por qu no podemos decir que una temperatura de 100 grados Fahrenheit

    indica doble de calor que una temperatura de 50 grados Fahrenheit?

    4. si agrupamos a los ejecutivos de la empresa en altos, medianos, bajos Qu tipo

    de escala de medida usamos? y si los ordenamos por estatura?

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    9

    Distribuciones de frecuencias unidimensionales

    Construccin en Statgraphics, S.P.S.S

    Grficos de lnea, barra, polgono de frecuencia, ojiva,

    curva de Lorenz.

    Captulo II DISTRIBUCIONES DE

    FRECUENCIAS

    UNIDIMENSIONALES

    GRAFICOS ESTADSTICOS

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    10

    DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES

    Consideremos un conjunto formado por N elementos y sea X una variable que

    describe un carcter de los mismos, cuyos posibles valores, ordenados de menor a

    mayor, son: x1, x2, ..xn.

    Frecuencia absoluta ordinaria: de xi es el nmero fi de veces que aparece xi

    en el total de los N elementos.

    Frecuencia ordinaria relativa: de xi es la proporcin hi de elementos del

    conjunto para los cuales la caracterstica considerada toma el valor xi. Se obtiene como

    hi = fi /N, y multiplicado por 100, representa el porcentaje de elementos que toman dicho

    valor.

    Frecuencia absoluta acumulada: de xi es el nmero Fi de observaciones

    menores o iguales que xi. Se calcula, por tanto, como Fi = f1+ f2 +fi = n

    i

    if1

    = N

    Frecuencia relativa acumulada: de xi es la proporcin Hi de elementos para

    los cuales el carcter toma un valor menor o igual que xi. Se puede calcular como.

    Hi = h1+ h2+hi = n

    i

    ih1

    = 1

    Distribucin de frecuencia: Se denomina al conjunto de valores de una variable

    junto con las frecuencias correspondientes a cada uno de ellos, (xi, fi)i=1,2,3.n. podemos

    hablar de dos tipos de distribuciones dependiendo de cmo se presenten los datos:

    Distribuciones con datos no agrupados en intervalos: para variables que

    toman pocos valores diferentes. Ver fig.1

    xi fi Fi hi Hi

    x1

    x2

    .

    .

    .

    xn

    f1

    f2

    .

    .

    .

    fn

    F1

    F2

    .

    .

    .

    Fn

    h1

    h2

    .

    .

    .

    hn

    H1

    H2

    .

    .

    .

    Hn

    Fig.1

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    11

    Distribucin con datos agrupados en intervalos: Se utiliza con variables que

    toman un nmero muy elevado de valores diferentes, con el objeto de hacer ms

    manipulable la informacin. La frecuencia absoluta ordinaria asociada a un intervalo

    (Li Ls], ser el nmero total de observaciones perteneciente al mismo. En este

    contexto, hay que introducir nuevos conceptos, como son, la amplitud del intervalo o

    ancho de clase (ic), ic = (Ls - Li), la marca de clase o punto medio del intervalo

    2 is

    LLx y la densidad de frecuencia, di =

    c

    i

    i

    f. Este tipo de distribuciones se

    presenta en la Fig.2

    Fig.2

    Finalmente, ntese que en el caso de trabajar con un atributo en lugar de una

    variable, podremos calcular siempre las frecuencias no acumuladas, mientras que las

    acumuladas slo se podrn calcular en el caso que estn medido en escala ordinal.

    REPRESENTACIONES GRFICAS

    Los grficos que se utilizan para representar una distribucin de frecuencia,

    sern diferentes segn la naturaleza del carcter a estudiar, dentro de los cuales,

    analizaremos los siguientes:

    GRFICOS PARA ATRIBUTOS

    Diagrama de rectngulos: Se presentan las distintas modalidades, en el eje de

    abscisas, levantndose sobre cada una de ellas un rectngulo, cuya altura es igual a la

    correspondiente frecuencia absoluta o relativa.

    (Li - Ls] ix

    fi Fi hi Hi di %

    L0 L1

    L1 L2

    .

    .

    .

    Ln-1 -Ln

    x1

    x2

    .

    .

    .

    xn

    f1

    f2

    .

    .

    .

    fn

    F1

    F2.

    .

    .

    .

    Fn

    h1

    h2

    .

    .

    .

    hn

    H1

    H2

    .

    .

    .

    Hn

    d1

    d2

    .

    .

    .

    dn

    ..

    ..

    .

    .

    .

    .

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    12

    Diagrama de sectores o circular: Se divide un crculo en tantas porciones como

    modalidades existan, de modo que a cada una de ellas le corresponda un sector circular

    con rea proporcional a su frecuencia absoluta o relativa.

    Pictograma: Se utilizan dibujos alusivos al tema de estudio para representar las

    frecuencias. Estos dibujos pueden hacerse de tal forma que tengan un tamao

    proporcional a la frecuencia absoluta o relativa de la respectiva modalidad, o bien

    repetirse un nmero de veces proporcional a la frecuencia absoluta.

    GRFICOS PARA VARIABLES

    1. Distribuciones con datos no agrupados en intervalos:

    Diagrama de barras: Se levanta una barra sobre cada valor de xi con

    una altura igual a fi o hi

    Polgono de frecuencia: Se unen mediante rectas los puntos de

    coordenadas (xi, hi) o (hi, fi).

    Polgono acumulativo de frecuencia: Se representan las frecuencias

    absolutas acumuladas (Fi o N) para todo valor de la recta real,

    obtenindose un grfico en forma de escalera.

    2. Distribuciones con datos agrupados en intervalos

    Histograma: Se construye representando, sobre cada intervalo, un

    rectngulo con altura igual a la densidad de frecuencia di con objeto de

    que el rea de cada rectngulo sea igual a la frecuencia absoluta del

    correspondiente intervalo. Cuando los intervalos tienen la misma

    amplitud se puede utilizar como altura la frecuencia absoluta fi,

    obtenindome en ese caso reas proporcionales a las frecuencias.

    Polgono de frecuencias: Se obtiene uniendo los puntos medios o

    marcas de clase de las bases superiores de los rectngulos del

    histograma, (xi,di), y cerrar el polgono cortando al eje de abscisas de

    forma que el rea encerrada entre el polgono de frecuencia y el eje

    horizontal coincida con el rea del histograma.

    Polgono acumulativo de frecuencia: se obtiene levantando en el

    extremo superior de cada intervalo una ordenada con altura igual a la

    frecuencia acumulada absoluta (Fi) o frecuencia relativa acumulada

    (Hi),uniendo despus estos puntos.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    13

    Grficos para

    Atributos

    Datos Cualitativos

    1)Grfico de Barras

    2)Diagrama Circular, De sectores o De Pastel

    3)Pictograma

    Grficos para Variables

    Datos Cuantitativos

    1) Grfico de Puntos

    3)Ojiva o Polgono de Porcentaje

    2) Grfico de lneas

    4)Grfico de Polgonos de Frecuencia

    Datos

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    14

    10 20 30 40 50

    2

    4

    6

    8

    10

    ~ X

    fi

    X ~

    = Marca de Clase

    fi = Frecuencia Absoluta Ordinaria

    0

    Dibujo del Grfico de Barras

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    20

    fi

    10 20

    30

    40

    50

    Esquema del sistema Cartesiano para realizar Grficos

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    15

    Medidas de posicin

    Media Aritmtica

    Mediana

    Moda

    Cuantiles

    Captulo III

    MEDIDAS DESCRIPTIVAS DE LOS

    DATOS ESTADSTICOS

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    16

    MEDIDAS DESCRIPTIVAS PARA EL ANLISIS DE LOS DATOS

    ESTADSTICOS

    Para sintetizar toda la informacin contenida en una tabla de frecuencias, el paso

    siguiente para el anlisis de datos, es definir los estadsticos o medidas descriptivas, las

    cuales proporcionan un resumen acerca de cmo se distribuyen los datos. Segn la

    informacin qu stos nos proporcionen, los clasificaremos en:

    Medidas de posicin.

    Medidas de dispersin.

    Medidas de forma (asimetra y curtosis)

    Medidas de concentracin.

    Medidas de Posicin: stas dan una idea general donde se sita la distribucin de

    frecuencias sobre la recta real, indicando alrededor del cual se agrupan los datos

    estadsticos. Dentro de esta clase se incluyen la media aritmtica, media Ponderada,

    moda, mediana, cuantiles.

    Media aritmtica: x . Es la suma ponderada de cada uno de los valores de la variable

    multiplicado por su frecuencia. Esta definicin enfatiza el significado de la media como

    reparto equitativo y como mejor estimador de una cantidad desconocida, as como el

    algoritmo del clculo.

    N

    fx

    x

    i

    n

    i

    i

    1 o N

    xf

    x

    n

    i

    ii

    1

    N: nmero de valores observados

    xi: cada uno de los valores observados

    fi: frecuencia con que se presenta xi

    En caso de que los datos se presenten en una tabla de valores agrupados en

    intervalos, se aplica la misma frmula, siendo los valores de

    xi: los valores de la marca de clase o punto medio. Debe recordarse que la agrupacin de

    los valores de la variable implica una perdida de informacin sobre dichos valores. Esto

    se traduce en el hecho de que los estadsticos calculados, a partir de valores agrupados

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    17

    estn afectados por el error de agrupamiento. Por este motivo y siempre que sea posible

    han de calcularse los estadsticos a partir de los datos originales, utilizando la frmula

    para datos no agrupados. No obstante, puede suceder a veces, que no tengamos los

    valores individuales de las observaciones sino por el contrario, dispongamos de una

    tabla de frecuencias. En este caso conviene recordar que los valores obtenidos son solo

    aproximados.

    Propiedades de la media:

    1. La media aritmtica es el centro de gravedad de la distribucin de la variable, es

    decir, la suma de las desviaciones de los valores con respecto a ella, es igual a

    cero.

    0)( ii fxx

    2. La media aritmtica del producto de una constante, a, por una variable X, es

    igual al producto de la constante por la media de la variable dada. Esta

    propiedad implica que, al efectuar un cambio de unidad de medida a los datos

    (pasar de metros a centmetros), la media queda afectada por dicho cambio de

    escala.

    xaN

    faxn

    i

    ii

    1

    3. La media aritmtica de la suma de dos variables, X, Y, es igual a suma de las

    medias de cada una de las variables.

    YXyX

    4. La media aritmtica de la suma de una constante entera, a, con una variable X,

    es igual a la suma de la constante, a, con la media aritmtica de la variable dada.

    xaN

    fxan

    i

    ii

    1

    )(

    Esta propiedad implica que, al efectuar un cambio en el origen desde el que se han

    medido los datos, la media quede afectada por dicho cambio de origen.

    Media ponderada: x

    Cuando el nmero de observaciones es grande, las operaciones para calcular la

    media aritmtica se simplifica utilizando la media ponderada.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    18

    r

    rr

    nnn

    xnxnxnx

    ....

    ......

    21

    2211

    Moda: (Mo). Cuando la variable es cualitativa no podemos calcular la media. Para

    describir un grupo podemos, entonces usar la moda (Mo), que es el valor de la variable

    que tiene mayor frecuencia. En una distribucin puede existir ms de una moda, si hay

    una sola moda se le denomina unimodal, si existen dos bimodal y si hay ms de dos se

    le denomina polimodal.

    Clculo de la moda para una variable numrica. Distinguiremos dos casos:

    Para una variable cualitativa o numrica discreta, su clculo es sumamente sencillo,

    basta con determinar en la tabla de frecuencias la variable de mxima frecuencia.

    Cuando la variable numrica esta agrupada en intervalos de clases, la moda se

    encontrar en la clase de mayor frecuencia, pudiendo calcular su valor por medio del

    siguiente modelo matemtico.

    Mo = li + cii

    i idd

    d

    11

    1

    La moda presenta algunas limitaciones como medida de posicin, obsrvese algunas de

    ellas:

    a) Si las frecuencias se condensan fuertemente en algunos valores de la variable, la

    moda, no es una medida eficaz. Ejemplo consideremos las ventas de un equipo

    de ejecutivos, tal como se ilustra a continuacin:

    Ventas

    (MM)

    1 5 2 3 8 10

    Ejecutivos 3 4 1 0 0 7

    Decir que la moda es 10 MM, cuando un porcentaje muy elevado de ejecutivos

    no ha efectuado ese monto, nos da una idea de las limitaciones de la moda en este caso.

    Esto es debido a que en el clculo de la moda no se tiene en cuenta todos los valores de

    la variable, sin embargo, la media es 2(MM), y en este clculo si se toma en cuenta

    todos los valores de la variable.

    b) Una misma distribucin con los valores agrupados en clases distintas, pueden

    dar distintas modas, en el clculo aproximado.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    19

    Mediana: (Md). Es un valor tal que, una vez ordenadas las observaciones de menor a

    mayor, deja el mismo nmero de observaciones a su derecha que a su izquierda. Para

    obtenerla se procede de la siguiente manera:

    En distribuciones no agrupadas en intervalos, se determina el primer valor de xi

    de la variable cuya frecuencia absoluta acumulada (Fi) es mayor o igual a N/2. si

    Fi es igual a N/2, entonces la mediana se obtiene como 2

    1ii xx , y si Fi es

    estrictamente mayor que N/2 entonces la mediana es xi.

    En distribuciones agrupadas, es necesario seleccionar, en primer lugar, el

    intervalo donde se encuentra la mediana (intervalo mediano), siendo ste el

    primer intervalo (Ls-li), cuya frecuencia absoluta acumulada Fi, es mayor o

    igual a N/2. suponiendo que las observaciones se distribuyen uniformemente en

    el intervalo, el modelo matemtico ser:

    Md = Li + ci i

    fi

    FN 12/

    Propiedades caractersticas de la mediana: al igual que la media y la moda la

    mediana tambin presenta limitaciones, tales como:

    i. Al calcular la mediana no usamos todos los valores de la variable, lo que la

    limita como medida de posicin

    ii. No puede ser aplicada a distribuciones de variables cualitativas.

    iii. Como medida de posicin, presenta ciertas ventajas, frente a la media en algunas

    distribuciones, ya que no se ve afectada por valores extremos de las

    observaciones. La mediana es invariante si se disminuye una observacin

    inferior a ella, o si se aumenta una superior, puesto que slo se tiene en cuenta

    los valores centrales de la variable. Por ello es adecuada para distribuciones

    asimtricas o cuando existen valores atpicos.

    iv. Es un estadstico resistente, con pequeas fluctuaciones de la muestra, no

    cambia su valor.

    v. Si los datos son ordinales la mediana existe, mientras que la media no tiene

    sentido, puesto que su clculo se basa en los valores numricos (necesariamente)

    de los datos.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    20

    Cuantiles: (C). Son los valores que dividen a la distribucin, una vez ordenada sta de

    menor a mayor, en intervalos de igual frecuencia. Los ms usuales son los cuartiles,

    simbolizados por Q1, Q2, Q3, que dividen la distribucin en cuatro intervalos iguales,

    cada uno de ellos con el 25% d las observaciones, los deciles, simbolizados por, D1, D2,

    D3,. D9, que dividen la distribucin en diez partes iguales, y los percentiles,

    simbolizados por P1, P2,..P99, que dividen la distribucin en cien partes iguales. Su

    clculo es similar a la mediana, se sustituye en N/2 por 100

    * Np , en el caso de calcular el

    cuantil p-simo de orden q, Cp/q, con 0

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    21

    Medidas de dispersin

    Medidas de dispersin absolutas:

    Recorrido

    Recorrido intercuartlico

    Desviacin media absoluta respecto a la

    media

    Desviacin media absoluta respecto a la

    mediana

    Varianza

    Desviacin tpica

    Medidas de dispersin relativa

    Coeficiente de variacin de Pearson

    Puntaje tpico o estandarizado

    Medidas de concentracin

    ndice de Gini

    Medidas de Forma

    Medidas de Asimetra

    Medidas de Curtosis

    Captulo IV MEDIDAS DESCRIPTIVAS DE

    VARIABILIDAD DE LOS

    DATOS ESTADSTICOS

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    22

    MEDIDAS DE DISPERSIN

    Las medidas de dispersin son estadsticos que miden la variabilidad de los

    datos; esto es, el grado de separacin existente entre estos, cuyos valores son mayores o

    iguales a cero, (el valor cero indica ausencia de dispersin) dentro de las cuales

    estudiaremos las siguientes:

    A. Medidas de dispersin absolutas:

    Recorrido: Re = Ls Li, es la medida de dispersin ms fcil de

    calcular, ya que solamente toma el cuenta los valores extremos de la

    variable.

    Recorrido intercuartlico: Qi = Q3 Q1, es aquel que mide la

    dispersin en el centro de la distribucin.

    Desviacin absoluta media respecto a la media: xD = N

    fixxn

    i

    i

    1

    Varianza: S2 =

    1

    )( 2

    1

    N

    fixxn

    i

    i

    , es la media aritmtica de los cuadrados

    de las desviaciones respecto a la media aritmtica. Su importancia radica

    en que da origen a otra medida de dispersin mucho ms significativa,

    denominada desviacin tpica

    Desviacin tpica: S = + 2S

    B. Medidas de dispersin relativas.

    Coeficiente de variacin de Pearson: Cv = 100*x

    S, permite comparar dos o

    ms distribuciones, con el fin de determinar cual de ellas tiene mayor o menor

    variabilidad relativa, su uso se hace necesario cuando dichas distribuciones estn

    dadas en unidades de medidas diferentes.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    23

    Las medidas de dispersin son caractersticas propias de la variable y no de los

    atributos, ni siquiera de los que estn medidos en escala ordinal.

    Puntaje tpico o estandarizado (Z):

    Se emplea para medir la desviacin de una observacin con respecto a la media

    aritmtica, en unidades de desviacin tpica, adems determina la posicin relativa de

    una observacin dentro del conjunto.

    Por lo general el puntaje tpico se simboliza con Z, y su modelo matemtico para

    calcularlo es

    Zi = s

    xxi o Zi = s

    xxi (datos agrupados)

    Este puntaje tpico se emplea para comparar dos o ms datos individuales,

    aunque pertenezcan a distribuciones diferentes, pudiendo suceder que tengan media y

    varianzas que no coincidan.

    MEDIDAS DE CONCENTRACIN

    Ponen de relieve el mayor o menor grado de igualdad en el reparto del total de

    los recursos, n

    i

    i fix1

    ndice de Gini; IG = 1

    1

    1

    1

    )(

    n

    i

    n

    i

    pi

    qipi

    , con pi = 100N

    Fi ; qi = 100

    n

    i

    u

    u ; ui =

    i

    k

    kk fx1

    El ndice de Gini vara entre 0 y 1, correspondiendo los casos extremosa

    concentracin mnima o equidistribucin (IG =0) y concentracin mxima (IG =1).

    Curva de Lorenz: Es la representacin grfica de los porcentajes acumulados de

    individuos (pi) y de recursos (qi). Se colocan los (pi), en el eje de las abscisas, los (qi) en

    el de ordenadas, y se unen todos los puntos (pi ,qi), considerando (0,0) como el primer

    punto y (100,100) como el ltimo. As cuanto ms prxima est la curva a la bisectriz

    del primer cuadrante, ms parecidos sern ambos porcentajes acumulados, por lo que

    menor ser la concentracin.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    24

    Curva de Lorenz

    Ejemplo

    Dos empresas ubicadas en la zona industrial Henry Ford de Valencia, una relacionada

    con las nuevas tecnologas E1 y otra con el sector lechero E2, tienen polticas salariales

    distintas. La empresa E1, ha implantado un sistema de subida salarial lineal de 50 mil

    bolvares mensuales y la empresa E2 una subida proporcional de un 7,5% mensual. Se

    sabe que las distribuciones de salarios mensuales (miles de bolvares), para cada

    empresa en el ao 2004 fueron:

    Empresa E1 Empresa E2

    Salario N de empleados Salario N de empleados

    1450 1700 10 800 1025 4

    1700 1950 30 1025 1250 14

    1950- 2200 10 1250 1475 20

    1475 - 1700 2

    En cual empresa el salario est ms concentrado?

    iq

    100 5 10 15 20 25 30 35 40 45 50 60 65 70 75 80 85 90 95 55

    ip

    50

    10

    20

    30

    40

    60

    70

    80

    90

    100

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    25

    Solucin

    Para resolver esta pregunta hay que calcular el ndice de Gini, asociado a cada

    distribucin de salarios, sin olvidar que al ndice de Gini no le afecta los cambios de

    escala, pero s los de origen, para la E1 la subida del salario ha sido lineal de 50 mil

    mensual, lo que supone un cambio de origen, por lo que calcularemos directamente el

    ndice de Gini, para la distribucin de salario del ao 2004. As

    Li - Ls fi x i fi* x Fi ui pi(%) qi(%)

    1500 1750 10 1625 16250 10 16250 20 17,33

    1750 2000 30 1875 56250 40 72500 80 77,33

    2000 - 2250 10 2125 21250 50 93750 100 100

    50 93750

    Donde IGE1 = 053,0100

    67,94100

    8020

    )33,7733,17()8020(

    Para la empresa E2, la subida mensual ha sido proporcional, o sea un cambio de escala.

    Li - Ls fi x i fi* x Fi ui pi(%) qi(%)

    800 1025 4 912,5 3650 4 3650 10 7,3

    1025 1250 14 1137,5 15925 18 19575 45 39,15

    1250 1475 20 1362,5 27250 38 46825 95 93,65

    1475 - 1700 2 1587,5 3175 40 50000 100 100

    40 50000

    Donde IGE1 = 0,066: Por lo tanto se puede concluir que el salario 2004 esta ms

    concentrado en la empresa E1.

    MEDIDAS DE FORMA

    Las medidas de forma pretenden dar una idea general de la representacin

    grfica de una distribucin de frecuencias. En particular, tratan de cuantificar la

    deformacin horizontal (asimetra) y la deformacin vertical (curtosis o apuntamiento)

    de la misma.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    26

    I. Medidas de asimetra:

    Coeficiente de asimetra de Fisher: F1 = 33

    S

    m

    S F1 >0, la distribucin es asimtrica positiva (o asimtrica a la derecha); s

    F1

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    27

    II Medidas de curtosis:

    Coeficiente de curtosis: K = 34

    4

    S

    m

    Este coeficiente se define slo para distribuciones campaniformes y simtricas

    (con ligera asimetra). Si K>0, o (K >0,263)la distribucin se denomina leptocrtica

    (ms apuntada que la distribucin normal); si K

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    28

    LEPTOCURTICA

    MESOCURTICA

    PLATICURTICA

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    29

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    30

    ACTIVIDAD PRCTICA DE APRENDIZAJE DE DISTRIBUCIN

    UNIDIMENSIONAL

    Los siguientes datos son una muestra de los salarios anuales de 100 trabajadores de una

    empresa del sector petrolero.

    Los datos estn expresados en miles de bolvares/fuertes

    200 200 200 200 200

    202 202 203 203 204

    205 205 205 206 206

    207 208 208 208 208

    209 212 213 218 218

    218 218 219 220 224

    224 225 225 226 226

    226 226 226 226 226

    227 227 228 228 229

    231 231 232 233 233

    233 234 234 235 236

    237 238 239 239 239

    240 240 240 241 241

    245 245 247 247 247

    248 249 249 250 250

    250 250 251 251 251

    251 251 251 252 252

    252 253 253 254 254

    255 255 255 256 256

    257 257 258 259 259

    N = 100

    Nc = 12

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    31

    La informacin representa la distribucin de salarios anuales expresados en

    miles de bolvares/fuerte:

    Prepare resmenes tabulares de los datos de salario anual mediante una distribucin

    de frecuencias (use numero de clase=12), (frecuencia absoluta, acumulada,

    frecuencia relativa, relativa acumulada y porcentaje).

    Nc Li - Ls

    x fi Fi hi Hi Hi %

    fi x d fi xx fi( 2) xx

    1 200-205 202.5 10 10 0.10 0.10 10 2025 -30.05 300.5 9030.02

    2 205-210 207.5 11 21 0.11 0.21 21 2282.5 -25.05 275.55 6902.52

    3 210-215 212.5 2 23 0.02 0.23 23 425 -20.05 40.1 804.00

    4 215-220 217.5 5 28 0.05 0.28 28 1087.5 -15.05 75.25 1132.51

    5 220-225 222.5 3 31 0.03 0.31 31 667.5 -10.05 30.15 303.00

    6 225-230 227.5 14 45 0.14 0.45 45 3185 -5.05 70.7 357.03

    7 230-235 232.5 8 53 0.08 0.53 53 1860 -0.05 0.4 0.02

    8 235-240 237.5 7 60 0.07 0.60 60 1662.5 4.95 34.65 171.51

    9 240-245 242.5 5 65 0.05 0.65 65 1212.5 9.95 49.75 495.01

    10 245-250 247.5 8 73 0.08 0.73 73 1980 14.95 119.6 1788.02

    11 250-255 252.5 17 90 0.17 0.90 90 4292.5 19.95 339.19 6766.04

    12 255-260 257.5 10 100 0.10 1 100 2575 24.95 249.5 62250.2

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    32

    a) Cuales son los salarios mnimos y mximos?

    Mximo=259

    Mnimo=200

    b) Que proporcin-cantidad-porcentaje hay (200-205)?

    C=10

    P=0.1

    P=10%

    c) Que proporcin-cantidad-porcentaje hay (210-235)?

    C=32

    P=0.32

    P=32%

    d) Ancho de la distribucin

    ic

    AtNc ; LiLsAt ; 200259At 59At

    e) Medidas de posicin de la distribucin

    Medidas de Posicin:

    Media Aritmtica:

    n

    fixx

    . ;

    100

    255.23x ; Bsmx /55.232 F. Es el salario promedio

    anual.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    33

    Mediana:

    icfi

    Fin

    LiMd *

    )1(2

    2

    NcLg ;

    2

    12Lg ; 6Lg

    5*14

    312

    100

    225Md

    78.6225Md

    BsmMd /78.231 F Es el valor promedio que divide la distribucin en

    dos partes iguales.

    Moda:

    icfmfm

    fmLiMo *

    )1()1(

    )1( ;

    5*810

    10250Mo

    BsmMo /77.252 F. Es el valor promedio con mayor frecuencia.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    34

    Cuantiles:

    icfi

    FinP

    LiPD *

    )1(100

    *

    %404

    100

    * nP40

    100

    100*40

    5*14

    3140225%404 PD

    BsmPD /21.238%404 F. es el valor por debajo del cual se encuentra

    el 40% de los salarios anuales.

    icfi

    FinP

    LiPQ *

    )1(100

    *

    %251 ;

    100

    * nP25

    100

    100*25

    5*5

    2325215%251 PQ

    BsmPQ /217%251 ; es el valor por debajo del cual se encuentra el

    25% de los salarios anuales devengados.

    icfi

    FinP

    LiPQ *

    )1(100

    *

    %753

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    35

    100

    * nP75

    100

    100*75

    5*17

    7375250%753 PQ

    bsmPQ /58.250%753 ; es el valor por debajo del cual se encuentra

    el 75% de los salarios devengados.

    Rango Percentil: es un estadstico que nos mide el porcentaje de valores por debajo del

    cual se encuentra un valor conocido.

    Ejemplo: Qu porcentaje de salarios se encuentran por debajo de 232 mBsF?

    nFifi

    ic

    LixPxR

    100*)1(*

    )()(

    100

    100*458*

    5

    230232)232(R

    1*458*4.0)232(R

    2.48)232(R %. Interpretacin 48,2% de los salarios se encuentran por

    debajo de 232 mBsF.

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    36

    MEDIDAS DE DISPERSION

    Medidas de dispersin absolutas:

    1. Rango:

    LiLsRg ; 200259Rg : 59Rg

    La dispersin existente en los extremos de los salarios es de 59m/BsF.

    2. Espacio Intercuartlico:

    13 QQQi ; 21758.250Qi

    BsmQi /58.33 F es la dispersin en centro de la distribucin.

    3. Desviacin Media:

    n

    xxfiDm

    100

    34.1585Dm

    85.15Dm

    La dispersin promedio total es de 15.85 m/BsF

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    37

    4. Varianza:

    1

    x-x

    n

    fiS

    99

    7.33974S

    17.343S

    La desviacin promedio de los salarios respecto a la media aritmtica es de

    343.17m/BsF2

    5. Desviacin tpica:

    SS

    2243.17mBsFS

    59.15S mBsF

    La variabilidad promedio.

    Medidas de dispersin relativas:

    Variable tipificada:

    S

    x-xZ(x)

  • Anlisis de Datos Estadsticos

    Autor: prof. Juan Muoz

    38

    59.15

    232.55-242.5Z(9)

    59.15

    9.95Z(9)

    63.0Z(9)

    0,63 es el nmero de desviaciones tpicas que existen con respecto a la media

    Coeficiente de Variabilidad:

    %100*S

    CVx

    %100*55.232

    15.59CV

    7.6CV %

    El porcentaje de variabilidad de la distribucin es de 6.7%

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    39

    Medidas de forma

    Asimetra:

    %10%90

    %502%)10%90(As

    PP

    PPP

    icfi

    FinP

    LiP *

    )1(100

    *

    %90

    100

    * nP90

    100

    100*90

    5*17

    7390250%90P

    255%90P

    icfi

    FinP

    LiP *

    )1(100

    *

    %10

    100

    * nP10

    100

    100*10

    5*10

    010200%10P

    205%10P

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    40

    icfi

    FinP

    LiP *

    )1(100

    *

    %50

    100

    * nP50

    100

    100*50

    5*8

    4550230%50P

    12.233%50P

    205255

    )12.233(2)205255(As

    50

    24.466460As

    12.0As ; La curva es sesgada hacia la izquierda porque el valor es negativo.

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    41

    Kurtosis:

    %)10%90(2

    %25%75Ku

    PP

    PP

    )205255(2

    21758.250Ku

    33.0Ku ; La curva es Leptocrtica ya que kurtosis es mayor a 0,263

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    42

    1.- La siguiente informacin corresponde a 25 empresas pequeas y medianas,

    ubicadas en la zona industrial del estado Carabobo.

    Se desea saber:

    Escala de Medicin

    Variables

    Variables cualitativas

    Variables cuantitativas

    Variables cuantitativas discretas

    Variables cuantitativas continuas

    Poblacin

    Muestra

    EMPRESA BOLSA SMBOLO

    VENTAS

    ANUALES

    Bs Millones

    GANANCIAS

    POR ACCIN

    RELACIN

    PRECIO-

    RENDIMIENTO

    Tec-serv-

    Firestone Valencia BdeV 15.5 11.500 22.5

    Nestle Caracas BdeC 255.8 7880 12.7

    Cuam Valencia BdeV 29.4 17000 7.5

    Pepsi cola Caracas BdeC 254.6 9668 6.0

    Rualca Caracas BdeC 88.7 12.880 15.7

    Good Year Caracas BdeC 27.7 5.750 27.4

    Unigorras Valencia BdeV 7.2 6.563 2.1

    Movilnet Caracas BdeC 48.3 15.750 27.2

    Dominguez Caracas BdeC 30.2 39.750 11.2

    Digitel Caracas BdeC 26.5 8.500 15.7

    Motoca Valencia BdeV 90.6 10.875 17.0

    Danaven Valencia BdeV 60.5 9.5000 11.4

    Toyota Valencia BdeV 71.1 10.313 24.6

    Movistar Caracas BdeC 23.7 7.375 14.2

    Regional Caracas BdeC 38.2 10.750 4.8

    Zap.

    Molinera Valencia BdeV 26.0 6.688 17.1

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    43

    2. Los siguientes datos son una muestra de salarios anuales de 40 gerentes de tienda

    (los datos estn expresados en millones de bolvares)

    48 35 57 48 52 56 51 44

    40 40 50 31 52 37 51 41

    47 45 46 42 53 43 44 39

    50 50 44 49 45 45 50 42

    52 55 46 54 45 41 45 47

    Se desea saber:

    a. Distribucin de frecuencia (Use ancho de clase = 5 millones de bolvares) Prepare

    resmenes tabulares de los datos de salario anual ( frecuencia relativa, relativa

    acumulada, porcentaje)

    b. Cules son los salarios mnimo y mximo?

    c. Cul es el promedio de los salarios?

    d. Qu proporcin hay de salarios anuales de 35 millones de bolvares o menos?

    e. Qu porcentajes hay de salarios anuales mayores de 50 millones?

    f. Qu cantidad proporcin y porcentaje de salarios anuales hay entre la tercera y la

    quinta clase?

    g. Qu cantidad porcentaje y proporcin hay entre 37,5714 y 50,4286

    h. Construya los siguientes grficos estadsticos conocidos por usted

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    44

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    45

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    46

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    47

    3. La siguiente informacin corresponde a las ventas de unas tiendas de computadoras

    personales durante un mes.

    4.1 1.5 10.4 5.9 3.4 5.7 1.6 6.1 3.0 3.7

    3.1 4.8 2.0 14.8 5.4 4.2 3.9 4.1 11.1 3.5

    4.1 4.1 8.8 5.6 4.3 3.3 7.1 10.3 6.2 7.6

    10.8 2.8 9.5 12.9 12.1 0.7 4.0 9.2 4.4 5.7

    7.2 6.1 5.7 5.9 4.7 3.9 3.7 3.1 6.1 3.1

    Se desea saber:

    a. Distribucin de frecuencia (Use ancho de clase = 3 millones de bolvares) Prepare

    resmenes tabulares de los datos de salario anual ( frecuencia relativa, relativa

    acumulada, porcentaje)

    b. Cules son las ventas mnima y mxima?

    c. Cul es el promedio de venta?

    d. Qu proporcin hay de ventas mensuales de 35 millones de bolvares o menos?

    e. Qu porcentajes hay de ventas mensuales mayores de 50 millones?

    f. Qu cantidad, proporcin y porcentaje de ventas mensuales hay entre la segunda y

    la quinta clase?

    g. Qu cantidad porcentaje y proporcin hay entre

    h. Construya los siguientes grficos estadsticos conocidos por usted

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    48

    4. A partir de las siguientes observaciones obtenidas al estudiar el nmero de hijos en

    la familia de un conjunto de 25 alumnos, construya la tabla de frecuencias de la variable

    = Nmero de hijos en las familias de los alumnos.

    2 2 3 3 3

    3 4 4 3 3

    3 4 2 2 2

    4 3 1 3 5

    2 4 4 1 3

    Se desea saber:

    Medidas de posicin y grficos estadsticos

    5. A partir de las siguientes observaciones obtenidas al estudiar el peso. En Kg., de un

    conjunto de 25 individuos, construya la tabla de frecuencia de la variable = Peso.

    68.2 87.8 85 57.5 68.2

    75.2 77.5 78.3 81.5 64

    62.5 85.9 83.6 78.1 61.2

    71.5 59.6 78.3 77.5 73

    73 88.5 85.2 61.5 94

    Se desea saber:

    Medidas de posicin, interpretacin y grficos estadsticos

    6. Realizada una encuesta sobre las preferencias de los jvenes por determinados

    productos de marcas, se han obtenido los siguientes resultados:

    Represente mediante un grfico adecuado la distribucin de las preferencias de los jvenes.

    Marca N de

    jvenes

    A

    B

    C

    D

    E

    38

    16

    12

    25

    9

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    49

    7. Represente grficamente la distribucin obtenida al estudiar la variable =

    Nmeros de asignaturas reprobadas por un grupo de 25 alumnos.

    Se desea saber:

    a) Medidas de posicin b) medidas de dispersin c) medidas de forma d) grficos

    8. Represente grficamente la siguiente distribucin referente al peso. En Kg., de un

    conjunto de 25 individuos.

    9. Se dispone informacin acerca del nmero de miembros de la unidad familiar para

    42 familias de una zona residencial:

    1 5 4 6 3 1 2

    3 2 4 7 5 1 4

    3 3 2 3 4 5 2

    3 1 1 4 2 3 6

    5 4 2 5 3 2 3

    4 6 2 3 3 4 3

    2 0 3 3 3

    3 4 6 3 3

    3 4 2 2 2

    4 0 1 3 6

    2 4 4 1 3

    68.2 87.8 85.0 57.5 68.2

    75.2 77.5 78.3 81.5 64.0

    62.5 85.9 83.6 78.1 61.2

    71.5 5936 78.3 77.5 73.0

    73.0 88.5 85.2 61.5 94.0

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    50

    Obtenga la media aritmtica, as como la moda y la mediana. Calcule tambin el primer y

    tercer cuartil, y los percentiles 10, 40 y 80.

    10. Se sabe el nmero de asignaturas aprobadas en un semestre por los alumnos del

    curso de licenciatura administracin comercial

    Obtenga la media aritmtica, la moda y la mediana de esta distribucin. Calcule tambin los

    cuartiles primero y tercero, y los percentiles 10, 25, 50, 75, 85 y 90, coeficiente de asimetra

    y coeficiente de curtosis.

    11. En la siguiente tabla se recoge informacin referente al nmero de horas extras

    trabajadas por 54 de los trabajadores contratados por una empresa hortofrutcola en el mes

    de junio de 2004:

    Horas Extras N Trabajadores

    5.5 15.5

    15.5 20.5

    20.5 25.5

    25.5 30.5

    30.5 35.5

    35.5 42.5

    8

    13

    15

    9

    6

    3

    N de

    asignatura

    aprobadas

    N de

    alumnos

    0

    1

    2

    3

    4

    5

    6

    15

    28

    41

    41

    10

    9

    6

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    51

    Obtenga la media aritmtica, as como la moda y la mediana. Calcule tambin el primer y

    tercer cuartil, y los percentiles10, 50, 60 y 90.

    12. Una empresa se dedica a la produccin de bolas de plasma. Las bolas son

    empaquetadas en cajas de 100 bolsas. En la revisin del ltimo envo realizado por la

    empresa, en el que haba 30 cajas, se han encontrado las siguientes bolsas defectuosas en

    cada caja:

    Calcule las siguientes medidas de dispersin: recorrido, recorrido intercuartlico,

    desviacin absoluta media respecto de la media aritmtica, varianza, desviacin tpica,

    recorrido semi-intercuartlico coeficiente de variacin, coeficiente de asimetra y

    coeficiente de curtosis.

    13. Las distribuciones de los aos de estudio posteriores a la enseanza secundaria de

    los trabajadores de dos empresas A y B se presenta en la siguiente tabla:

    Aos de estudio

    posteriores a la

    enseaza obligatoria

    Empresa A Empresa B

    0

    2

    3

    4

    6

    9

    10

    5

    10

    15

    15

    6

    3

    1

    5

    2

    5

    10

    10

    8

    0

    0 1 2 1 1 0

    2 1 1 0 5 0

    1 0 0 1 1 0

    0 3 0 2 2 1

    0 1 2 2 1 0

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    52

    Calcule el nmero medio de aos de estudio posteriores a la enseanza de secundaria en

    cada una de las empresas. Cul de ellos es ms representativo de su correspondiente

    distribucin? Calcule los coeficientes de dispersin, tanto absolutos como relativos.

    14. La distribucin de las puntuaciones obtenidas en una prueba de seleccin por un

    total de 200 aspirantes se recoge en la siguiente tabla:

    Obtenga la media y la mediana de la distribucin, as como las desviaciones absolutas

    medias respecto a ambas medidas. Calcule tambin los ndices de dispersin respecto a la

    media y a la mediana, coeficiente de asimetra y coeficiente de curtosis. (Grficos).

    15. En la cola de Cinesunidos del Sambil de Valencia se ha realizado una encuesta.

    En ella se pregunta a los usuarios, entre otras cosas, acerca del nmero de veces que han

    asistido a la proyeccin de una pelcula en el ltimo mes . Los datos recogidos sobre esta

    variable se presentan a continuacin:

    Determine los coeficientes de asimetra y coeficiente de curtosis. (Grficos).

    Puntuacin Aspirantes

    [0,10]

    (10,20]

    (20,30]

    (30,40]

    (40,50]

    (50,60]

    (60,70]

    (70,80]

    (80,90]

    (90,100]

    10

    15

    30

    20

    35

    40

    20

    20

    5

    5

    2 2 2 3 2 0 5 2 3 2 4 3 3 2 2 2 4 3 3 2

    2 3 3 0 0 2 2 4 2 2 2 1 3 4 3 5 4 4 3 1

    3 3 4 2 3 2 1 2 3 2 3 2 5 4 1 3 4 3 4 3

    1 2 4 5 2 3 3 2 2 4 2 4 2 3 2 5 5 2 4 3

    2 2 4 4 3 2 2 4 2 0 2 1 4 3 5 4 2 3 2 2

    1 0 3 3 2 4 5 1 2 2 3 1 3 4 2 2 3 2 2 1

    3 2 3 2 0 3 2 2 4 2 2 3 1 1 3 3 3 4 2 2

    3 3 4 3 1 3 1 3 1 3 2 3 3 2 1 1 2 2 1 4

    3 3 3 4 1 2 1 2 4 3 3 3 2 3 3 5 1 2 3 2

    3 2 2 3 3 3 3 2 3 4 4 3 3 3 3 4 3 1 2 3

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    53

    16. La siguiente distribucin representa la ausencia laboral en la empresa RUALCA

    ubicada en la zona industrial de Valencia por motivo de enfermedad:

    Das N de

    trabajadores

    1 5 5 10 10 15 15 30 30 60 60 - 90

    19

    42

    35

    68

    30

    6

    Determine los coeficientes de asimetra y coeficiente de curtosis. (Grficos), para esta

    distribucin de frecuencia.

    17. Se desea estudiar y comparar el grado de concentracin en el reparto de la masa

    salarial de dos empresas distintas. La empresa GM ofrece sus datos en dlares. Por el

    contrario, la empresa FIRESTONE no tiene actualizada su contabilidad en dlares y ofrece

    sus datos en bolvares.

    Cul de las distribuciones es ms confiable?

    GM

    ii LL ,1 ni 451 601 601 902

    902 1.142 1.142 1.442 1.442 1.683 1.683 1.983 1.983 2.404 2.404 3.606 3.606 6.010

    25 7

    8

    2

    5

    6

    1

    2

    1

    FIRESTONE

    ii LL ,1 ni

    75.000 100.000 100.000 150.000 150.000 190.000 190.000 240.000 240.000 280.000 280.000 330.000 330.000 400.000 400.000 600.000

    600.000 1.000.000

    29

    12

    9

    7

    1

    4

    1

    1

    1

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    54

    Distribuciones de frecuencias bidimensionales

    Representaciones grficas

    Distribuciones marginales

    Distribuciones condicionadas

    Independencia estadstica

    Momentos

    Covariaza

    Captulo V

    DISTRIBUCIONES DE FRECUENCIAS

    BIDIMENSIONALES

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    55

    DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES

    Dado un conjunto de N elementos o individuos, se desea estudiar dos caractersticas

    de los mismos, medidas por las variables X e Y, p(xi,yr) cuyos posibles valores son

    x1, x2, .....xi e y1,y2,.......yr , respectivamente. Tambin podra darse el caso en que alguno de

    los caracteres fuera cualitativo, o incluso los dos.

    Frecuencia absoluta conjunta, del par ordenado p(xi,yr) es el nmero fir de elementos en el

    total de los N considerados que presentan el valor xi para la primera caracterstica y el valor

    yr para la segunda.

    Frecuencia relativa conjunta, del par p(xi, yr) es la proporcin hir de elementos del

    conjunto para los cuales la primera caracterstica toma el valor xi y la segunda el valor yr.

    Se obtiene como hi r= N

    nir y multiplicada por 100 representa el porcentaje de elementos con

    dichos valores en las caractersticas consideradas.

    Definiremos distribucin de frecuencia bidimensional al conjunto de pares

    p(xi,yr), junto con las frecuencias asociadas a cada uno de ellos, (xi, yr); nir i=1,2,....,j; r =

    1,2,....s dicha distribucin de frecuencia suele presentarse en una tabla de doble entrada, que

    recibe el nombre de tabla de correlacin si los dos caracteres son cuantitativos, y tabla de

    contingencia si al menos uno de ellos es cualitativo. Adems para el caso de las variables,

    los datos pueden venir agrupados en intervalos o no, segn proceda.

    X / Y y1 y2 .... yr

    x1

    x2

    .

    .

    .

    xi

    n11 n12 ...... n1r

    n21 n22 ...... n2r

    ni1 ni2 ..... nir

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    56

    Representaciones grficas

    Diagrama de dispersin o nube de puntos. Grfico solo para variables que

    representan los pares de observaciones como puntos en un sistema cartesiano, donde cada

    uno de los ejes corresponde a una de las variables. Esta representacin ayuda a descubrir

    visualmente la existencia de algn tipo de relacin entre dos variables.

    DISTRIBUCIONES MARGINALES

    Son cada una de las dos distribuciones de frecuencias unidimensionales que se

    obtienen a partir de la distribucin bidimensional (xi,yr) ; nir i = 1, 2,....j r= 1,2,....s , al

    estudiar el comportamiento de cada una de las dos componentes de (X,Y) por separado. As

    en el caso de la distribucin correspondiente a X, que denotaremos por (xi; ni)i = 1, 2,....j, la

    frecuencia marginal ni representa el nmero de elementos para los cuales la primera

    caracterstica toma el valor xi , sea cual sea el valor de Y, esto es:

    ni = s

    j

    ijn1

    , i = 1,2,......r

    Mientras que en la distribucin correspondiente a Y (yj; nj)j = 1,2,....s , la frecuencia marginal

    nj, denota el nmero de elementos para los cuales la segunda caracterstica toma el valor y j

    independientemente del valor que tome X

    nj = j

    i

    ijn1

    , j = 1,2,......r

    Siendo entonces N = r

    i

    s

    j

    ijn1 1

    . Esta informacin se puede representar en la tabla de doble

    entrada.

    X / Y y1 y2 .... yr

    x1

    x2

    .

    .

    .

    xi

    n11 n12 ...... n1r

    n21 n22 ...... n2r

    ni1 ni2 ..... nir

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    57

    Tambin se pueden calcular las frecuencias relativas marginales:

    fi = N

    ni ; fj = N

    n j

    11 11 1

    j

    i

    s

    r

    j

    j

    i

    s

    r

    ir ffif

    Y puesto que las distribuciones marginales no son ms que distribuciones de frecuencias

    unidimensionales, se podran obtener para ellas las distintas medidas estudiadas en el tema

    anterior. Adems todos los comentarios anteriores sobre distribuciones marginales se

    pueden aplicar sin ningn problema a la situacin en la que una o las dos componentes del

    par ordenado p(X,Y) sean atributos.

    Distribuciones condicionadas

    La distribucin de X condicionada a que Y tome el valor yj es la distribucin

    unidimensional (xi ; ni/j )i=1,2,...r representada en la siguiente tabla tanto en frecuencia

    absoluta como relativa:

    X/Y = yj n i/j f i/j x1 x2 .

    .

    xr

    n 1/j n2/j

    .

    .

    nr/j

    n.j

    f1/j f2/j

    .

    .

    fr/j

    1

    Donde ni/j = nij y fi/j = jn

    nij

    .

    Del mismo modo se define la distribucin de Y condicionada a que X tome el valor

    xi , esto es (yj ; nj/i )j=1,2,...s

    Y/X = xj n j/i f j/i

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    58

    y1 y2 .

    .

    yr

    n 1/i n2/i.

    .

    .

    .ns/i

    ni.

    f1/j f2/j

    .

    .

    fs/j

    1

    Donde nj/i = nij y fj/i = .i

    ij

    n

    n

    Independencia estadstica

    Se dice que dos caracteres X e Y son estadsticamente independiente si los valores o

    modalidades que toma uno de ellos no se ve afectado por los valores o modalidades que

    toma el otro, formalmente, si :

    fi/1 = fi/2 = ... = fi/s = fi., ri ,....,1

    fj/1 = fj/2 = ... = fj/r = f.j, sj ,...,1

    Momentos

    Estudiaremos los momentos respecto al origen (ordinarios) y momentos

    respecto a la media (centrales):

    Momentos ordinarios de orden (h,k): ahk = N

    nyxr

    i

    s

    j

    ij

    k

    j

    h

    i

    1 1

    Momento central de orden (h,k): mhk = N

    nyyxxr

    i

    ij

    k

    j

    hs

    j

    i

    1 1

    )()(

    Entre los momentos bidimensionales podemos destacar la Covarianza la cual nos

    proporciona una medida del grado de relacin lineal que existe ente las variables X e Y, se

    puede calcular mediante el siguiente modelo matemtico para la covarianza de la muestra:

    Sxy = 2

    ))((

    n

    YYXX ii

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    59

    Y para la covarianza de la poblacin xy = N

    YX yixi ))((.

    Interpretacin de la covarianza:

    Si el valor de la covarianza es positivo indica una asociacin lineal positiva entre X

    y Y; esto es; al aumentar el valor de X el de Y aumenta.

    Si el valor de la covarianza es negativo, indica una asociacin lineal negativa entre

    X y Y esto es; al aumentar el valor de X el de Y disminuye.

    Si el valor de la covarianza es cero, indica que no asociacin lineal entre X y Y.

    Ejemplo

    Sxy = 2

    ))((

    n

    YYXX ii

    i i

    La media de X: 11.225 La media de Y: 5.437

    X 7,2 6,7 17,0 12,5 6,3 23,9 6,0 10,2

    Y 4,2 4,9 7,0 6,2 3,8 7,6 4,4 5,4

    1 2 3 4 5 6 7 8

    xy = 58, 297

    Sxy = 58,297 = 9,71 6 Resultado

    Positivo.

    Ej. Sxy= (7,2 11.225) (4,2 5,437)= 4,97; (6,7 11.225) (4,9 5.437) = 2,42 ;

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    60

    Introduccin

    Regresin mnimo cuadrtica

    Regresin lineal

    Series temporales o cronolgicas

    Correlacin

    Prediccin

    Captulo VI

    REGRESIN

    CORRELACIN

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    61

    Introduccin

    Cuando se analizan conjuntamente dos variables que no son estadsticamente

    independientes, la relacin de independencia existente entre ellas puede ser funcional

    (relacin matemtica exacta entre las dos variables, por ejemplo consumo de energa

    elctrica por el uso de un aire acondicionado y el tiempo de enfriamiento) o estadstica

    (relacin aproximada entre las dos variables, ejemplo el nivel de ventas de una empresa y el

    gasto de publicidad). En este ltimo caso interesa estudiar el grado de dependencia

    existente entre las variables. (Teora de la correlacin) y determinar la funcin que mejor

    explique dicha dependencia (teora de la regresin).

    Dadas dos variables X e Y, con distribucin conjunta de frecuencias (xi , yj); nij

    Se denomina regresin de Y sobre X (Y/X), a la funcin que explica la variable Y para

    cada valor de X. De igual forma, la regresin de X sobre Y (X/Y) determina el

    comportamiento de X en funcin de Y, sin prdida de generalidad, consideremos la

    distribucin de pares de valores p(xi, yi), con frecuencias unitarias.

    Regresin de mnimo cuadrtica

    Es una tcnica empleada para obtener la ecuacin de regresin, minimizando la

    suma de los cuadrados de las distancias verticales entre los valores Y verdaderos y los

    valores pronosticados de , originando la recta de mejor ajuste. Al utilizar este mtodo se

    elimina el juicio personal.

    Para obtener la funcin de regresin de Y sobre X, en primer lugar se representan

    grficamente en un sistema de coordenadas los pares de observaciones de las dos variables

    (nube de puntos o diagrama de dispersin), y se selecciona el tipo de funcin que mejor se

    ajuste a esos puntos. En segundo lugar se determina dicha funcin haciendo mnima la

    suma de los cuadrados de los residuos o errores, ei (diferencia entre la variable dependiente

    observada, y , y el valor terico, , que se obtiene al sustituir la funcin escogida x por x i,

    esto es ei = yi ):

    Min N

    i

    iy1

    ( )2

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    62

    De igual forma se obtiene la funcin de regresin de X sobre Y haciendo mnimo:

    N

    i

    ix1

    ( x^)2. Se denominan ecuaciones normales a aquellas que se obtienen al minimizar

    las expresiones anteriores.

    Regresin lineal

    Si la funcin que se adapta a la nube de puntos es una recta, se habla de regresin

    lineal y ser de la forma = a + bx, para la regresin Y/X, y, x^ = a + by, para la

    regresin de X/Y. Los coeficientes b y b ' reciben el nombre de coeficientes de regresin

    y es la pendiente de la recta, o sea el cambio en promedio en por unidad de cambio

    (incremento o decremento) en la variable independiente X. Mientras que a y a' son los

    puntos de corte con el eje Y, o sea el valor estimado de Y cuando X = 0.

    Recta de regresin de Y sobre X

    Se calculan los parmetros a y b que minimizan 2

    1

    )( i

    N

    i

    i bxay , obtenindose

    las siguientes ecuaciones normales N

    i

    iy1

    = aN + bN

    i

    ix1

    N

    i

    iy1

    xi = a N

    i

    ix1

    + bN

    i

    ix1

    2

    Que dan lugar a:

    a = xby

    b = 2

    x

    xy

    S

    S o b =

    )(.

    )*.(.

    XCS

    YXCS

    S.C.(X*Y)= YX * -n

    YX * S.C(X) =

    n

    XX

    2

    2)(

    S.C.(Y) = n

    YY

    2

    2)(

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    63

    As, la recta Y/X viene expresada por:

    - y = 2

    x

    xy

    S

    S(x- x ) o XbaY (ecuacin reducida)

    Recta de regresin de X sobre Y

    Se minimizan 2''

    1

    )( i

    N

    i

    i ybax , obtenindose las siguientes ecuaciones normales:

    N

    i

    ix1

    = a'N + b

    'N

    i

    iy1

    N

    i

    iy1

    xi = a'

    N

    i

    iy1

    + b'

    N

    i

    iy1

    2

    Que dan lugar a: a = YbX

    b'

    = 2

    y

    xy

    S

    S o b =

    )(.

    )*.(.

    YCS

    YXCS

    As la recta viene expresada por:

    x^ - x =

    2

    x

    xy

    S

    S(y- y ) o YbaX

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    64

    Varianza residual, representa los valores de Y respecto a la lnea de regresin, recordemos

    que las desviaciones de los valores de Y respecto a la lnea de regresin estimada se llaman

    residuales, y se pueden obtener mediante el siguiente modelo matemtico:

    S2y/x =

    2

    )( 2

    n

    YYi y el error estndar de estimacin se obtiene Sy/x = xyS /

    Coeficiente de determinacin, lo definiremos como un valor comprendido entre 1 y cero

    (1;0) y se usa para evaluar la bondad de ajuste para la ecuacin de regresin, lo

    modelizaremos mediante r2 donde r2 = S.C.R / S. C.T

    S.C.R = Suma de cuadrados debida a la regresin. = S.C.T S.C.E

    S. C.T= Suma de cuadrados Total = (Yi - y i )2 *

    S.C.E : Suma de Cuadrados del error = (Yi - Y i )2 *

    S.C.T = S.C.R + S.C.E

    EJEMPLO ILUSTRATIVO

    1.- la siguiente informacin corresponde a una muestra tomada de 10 restaurant ubicados

    en valencia, de acuerdo al nmero de clientes (X) y las ventas mensuales (Y), expresadas

    en miles de Bs tal como se describe a continuacin:

    #Rest 1 2 3 4 5 6 7 8 9 10

    #Clientes (X) 2 6 8 8 12 16 20 20 22 26

    Ventas (Y) 58 105 88 118 117 137 157 169 149 202

    Se desea saber:

    a.- Existencia de la relacin entre las variables. (covarianza nube de puntos)

    b.- Estime las ventas para 10 clientes (recta de mejor ajuste por el M..M.C)

    c.- Varianza residual

    d.- Error estndar de estimacin.

    e.- Coeficiente de determinacin

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    65

    SOLUCIN

    b.- XbaY Y = 60 + 5X (R.M.A.M.M.C), luego estimo las ventas

    para 10 clientes y obtengo Y = 60 + 5 (10) = 110 miles de bolvares.

    c.- Varianza Residual S2 = 121,95 m/Bs

    2

    d.- Error estndar de estimacin: S = 13,82 m/ Bs

    e.- Coeficiente de determinacin r2

    = 0,90

    Nota: Se le sugiere al lector como ejercicio prctico estimar el nmero de clientes para

    unas ventas de 150 mil Bs.

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    66

    EJERCICIO RESUELTO EN EL PROGRAMA STATGRAPHICS

    Anlisis de Regresin - Modelo Lineal Y = a + b*X

    -----------------------------------------------------------------------------

    Variable dependiente: Ventas

    Variable independiente: #clientes

    -----------------------------------------------------------------------------

    Error Estadstico

    Parmetro Estimacin estndar T P-Valor

    -----------------------------------------------------------------------------

    Ordenada 60,0 9,22603 6,50334 0,0002

    Pendiente 5,0 0,580265 8,61675 0,0000

    -----------------------------------------------------------------------------

    Anlisis de la Varianza

    -----------------------------------------------------------------------------

    Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor

    -----------------------------------------------------------------------------

    Modelo 14200,0 1 14200,0 74,25 0,0000

    Residuo 1530,0 8 191,25

    -----------------------------------------------------------------------------

    Total (Corr.) 15730,0 9

    Coeficiente de Correlacin = 0,950123

    R-cuadrado = 90,2734 porcentaje

    R-cuadrado (ajustado para g.l.) = 89,0575 porcentaje

    Error estndar de est. = 13,8293

    Error absoluto medio = 10,8

    Estadstico de Durbin-Watson = 3,22353 (P=0,0027)

    Autocorrelacin residual en Lag 1 = -0,705882

    El StatAdvisor

    --------------

    La salida muestra los resultados del ajuste al modelo lineal para

    describir la relacin entre Ventas y #clientes. La ecuacin del

    modelo ajustado es

    Ventas = 60,0 + 5,0*#clientes

    Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existe

    relacin estadsticamente significativa entre Ventas y #clientes para

    un nivel de confianza del 99%.

    El estadstico R-cuadrado indica que el modelo explica un 90,2734%

    de la variabilidad en Ventas. El coeficiente de correlacin es igual

    a 0,950123, indicando una relacin relativamente fuerte entre las

    variables. El error estndar de la estimacin muestra la desviacin

    tpica de los residuos que es 13,8293. Este valor puede usarse para

    construir lmites de la prediccin para las nuevas observaciones

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    67

    SERIES CRONOLGICAS O TEMPORALES

    Una serie cronolgica o temporal es una sucesin de observaciones de una variable

    registrada a intervalos de tiempo regulares y ordenadas en el tiempo. Se puede considerar

    como una variable bidimensional, siendo la variable dependiente, Y, y la magnitud que

    queremos analizar, mientras que la independiente es el tiempo, t.

    La serie cronolgica se representa por Yt, si se considera explcitamente el ao t,

    donde t = t1, t2, .tn y la poca i, del ao a que se refiere la observacin i = 1, 2, ,12 por

    ejemplo, si son meses; i = 1,2,..,k, en general.

    Componentes de una serie cronolgica o temporal

    El anlisis clsico de series cronolgicas, considera que una serie cronolgica esta

    formada por cuatro componentes:

    Tendencia (T): movimiento regular de la serie, a largo plazo, para establecer

    una lnea de tendencia, que sea lo suficientemente vlida.

    Variaciones estacinales (E): oscilaciones a corto plazo de perodo regular,

    menor o igual a un ao.

    Variaciones cclicas (C): movimientos a mediano plazo (superior al ao) en

    torno a la tendencia, cuyo perodo y amplitud pueden presentar cierta

    regularidad, crsis-recuperacin.

    Variaciones irregulares (A): fluctuaciones debidas a factores eventuales,

    espordicos e imprevisibles que no muestran una periodicidad reconocible.

    Para describir cada una de las componentes, se hace uso de mtodos grficos y

    esquemas o modelos. Un estudio grfico de los datos proporciona bastante informacin de

    su evolucin a corto y largo plazo, y permite detectar la amplitud de las oscilaciones, la

    presencia de ciclos, de valores anmalos, etc. Mediante los esquemas se trata de reproducir

    la evolucin temporal segn una pauta regular que concuerde con los datos, sin intentar

    explicar las causas de variacin de cada componente. Los esquemas utilizados

    generalmente son dos:

    Esquema aditivo: Yt = Tt + Et + Ct + At.

    Esquema multiplicativo: Yt = Tt *Et * Ct * At

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    68

    Para seleccionar el tipo de esquema ms adecuado, se puede utilizar varios mtodos

    (grfico, grfico media desviacin tpica, etc.), el esquema ms utilizado con datos

    econmicos es el multiplicativo; por ello, le prestaremos especial atencin en este manual.

    Anlisis de la Tendencia

    Consiste en expresar la tendencia mediante una funcin matemtica a partir de los

    valores de la variable dependiente Y, en el tiempo t. Las funciones suelen ser de tipo lineal

    o exponencial, y el ajuste se basa en el mtodo de los mnimos cuadrticos. Para el caso

    lineal, consideremos dos situaciones:

    1. Si se dispone slo de datos anuales, se define la tendencia anual de la serie como:

    Tt = y t = a + bt

    Donde a, b, son los parmetros a determinar.

    2. Si se trabaja con datos mensuales, trimestrales, cuatrimestrales, etc. o con

    cualquier otra periodicidad, es decir, se tienen datos del tipo [subperodos (i)/ aos

    (t)], los pasos a seguir para llevar a cabo el clculo de las tendencias para cada

    subperodo (i) del ao t, son los siguientes:

    Se calculan las medias anuales (medias para cada ao de las k

    observaciones)

    k

    y

    y

    k

    i

    ti

    t

    1

    .

    , t = t1, t2,tn

    Se obtiene la tendencia media anual ajustando una recta a ese conjunto de

    datos

    Se calcula tT y la tendencia k-ensima Tt para cada subperodo i de cada

    ao t, teniendo en cuenta que esta ltima es tambin lineal, y que el

    incremento de un subperodo al siguiente es b/k dado que el incremento

    anual es b, por lo tanto:

    btayT tt

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    69

    Tt = tT + [2

    1ki ]b/k, i = 1, 2, ,k

    Donde [2

    1ki ], es el contador del nmero de subperodos entre el momento

    central del ao t, y el punto central del subperodo i, dentro del mismo ao t.

    A continuacin un ejemplo demostrativo:

    Durante el ao 2000 las ventas de cemento (miles de toneladas) en la regin central,

    arrojaron los siguientes resultados:

    Ao: 2000 2001 2002 2003 2004

    Regin central (Y) 7 9 8 5 3

    Estime las ventas para el ao 2010 b) 20.

    SOLUCIN

    Ao: 2000 2001 2002 2003 2004

    Regin central (Y) 7 9 8 5 3

    (X) -2 -1 0 1 2

    X*Y -14 -9 0 5 6

    X2

    4 1 0 1 4

    0X Y = 6,4, luego se procede a evaluar la recta de mejor ajuste por el mtodo de

    los mnimos cuadrados: XbaY donde b = )(.

    )*.(.

    XCS

    YXCS

    a = xby entonces: Y = 6,4 -0,011x donde Y = 6,4 -0,011(7) = 6,3 miles de toneladas.

    Interpretacin: Se estima que de mantenerse la tendencia las ventas sern de6,3 m/t

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    70

    CORRELACIN

    Se llama Correlacin a la teora que trata de estudiar la relacin o dependencia que

    existe entre las dos variables que intervienen en una distribucin bidimensional.

    Correlacin lineal, segn el diagrama de puntos se condense en torno a una lnea recta.

    Correlacin positiva o directamente proporcional, cuando a medida que crece una

    variable la otra tambin crece.

    Correlacin negativa o inversamente proporcional, cuando a medida que crece una

    variable la otra decrece.

    Correlacin nula, cuando no existe ninguna relacin entre ambas variables, en cuyo caso

    los puntos del diagrama estn esparcidos al azar, sin formar ninguna lnea, tambin se dice

    que las variables estn incorreladas.

    La correlacin es de tipo funcional, s existe una funcin que satisface todos los valores

    de la distribucin.

    A continuacin se presenta varios diagramas de dispersin, indicando la relacin que existe

    entre las variables X y Y.

    Y

    X

    (a)

    Y

    X

    (b)

    Y

    X

    (c)

    Y

    X

    (d)

    Y

    X

    (e)

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    71

    COEFICIENTES DE CORRELACIN.

    1. Coeficiente de correlacin de Pearson:

    Cuando comenzamos a hablar de serie bidimensionales, y adems observamos por

    via intuitiva, mediante el diagrama de dispersin que existe una correlacin lineal entre las

    variables tiene inters cuantificar de forma ms objetiva y precisa esta correlacin.

    Podemos decir que las aplicaciones prcticas con series en las que ambas variables

    son continuas y la escala de medicin son de tipo intervalo o de razn, por ejemplo salario

    y unidades producidas, edad y tiempo de servicio, peso y estatura, ventas y cursos

    realizados, etc. para estas combinaciones podemos aplicar el coeficiente de correlacin

    de Pearson. y se pueden obtener mediante el siguiente modelo matemtico:

    Rp = YCSXCS

    YXCS

    ..*..

    *..

    El signo del coeficiente de Pearson, viene dado por el signo de la covarianza, ya que las

    desviaciones tpicas son siempre positivas. As pues, el signo de la covarianza decide el

    comportamiento de la correlacin:

    Si la covarianza es positiva, la correlacin es directamente proporcional.

    Si la covarianza es negativa, la correlacin es inversamente proporcional.

    Si la covarianza es nula es decir vale cero (0), no existe correlacin.

    Se demuestra que el coeficiente de correlacin lineal, es un nmero real comprendido entre

    -1 y +1 [-1,+1]. Veamos que tipo de dependencia existe entre las variables X y Y, segn el

    valor de r.

    1. Si r=1, todos los valores de la variable bidimensional (X, Y) se encuentra situados

    sobre una recta; en consecuencia, satisfacen la ecuacin de una recta. Entonces se dice que

    entre la variables X e Y existe una dependencia aleatoria.

    2. Si -1

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    72

    3. Si r=0, no existe ningn tipo de relacin entre las dos variables. En este caso se dice

    que las variable X e Y son aleatoriamente independientes.

    4. Si 0

  • Anlisis de Datos Estadsticos

    Autor: Prof. Juan Muoz

    73

    3.- Coeficiente de correlacin biserial puntual.

    Una variable da lugar a medidas de intervalo o razn y la otra da lugar a medidas

    nominales dicotmicas (por ejemplo el sexo, estado civil, presentacin de un examen, etc.)

    por ejemplo podemos observar volumen de ventas en un mes (variable X) y ejecutivos

    segn sexo (variable Y) asignando (1) a masculino y (0) a femenino. La observacin de

    ambas variables, Ventas (X) y sexo (Y) dar dos puntuaciones por ejecutivos.

    La relacin entre X y Y se puede calcular mediante el coeficiente producto-

    momento de Pearson, a partir de los datos como se dan, y el resultado se denomina

    coeficiente de correlacin biserial- puntual y lo simbolizaremos por rbp . El trmino de

    biserial se refiere al hecho de que existe dos series de observaciones en Y; las puntuaciones

    de cero o uno. Tanto el nombre como la frmula se deben a kart Pearson. y su modelo

    matemtico es:

    rbp = )1(

    ** 01

    )0()1(

    nn

    nn

    S

    XX

    Donde: )1(X es la media en X de las puntuaciones 1 en Y.

    )0(X es la media en X de las puntuaciones 0 en Y.

    Sx es la desviacin tpica de las n puntuaciones en X

    n1 es el nmero de puntuaciones con valor 1 en Y

    n0 es el nmero de puntuaciones con valor 0 en Y

    n es el nmero total de sujetos observados tanto en 1 como en 0,n = n1 + n0

    La interpretacin de este coeficiente es la misma que se dio al primer coeficiente

    (Pearson).

    4.- Coeficiente de correlacin Phi,

    Este caso se presenta cuando dos variables son de tipo nominal dicotmica, es

    decir, ambas variables son de tipo nominal con solo dos categoras que representan

    presencia y ausencia, de una determinada caracterstica, sea por ejemplo cuando una de las

    variables es sexo (solo reconocemos si el sujeto es de sexo masculino o no, lo que

    entenderemos como femenino) y la otra variable es si vot o no, en una eleccin. En la

  • Anlisis de Datos Estadsticos