120
  Estadística aplicada a las Ciencias Geológicas Autor: Arnaldo Mangeaud Facultad de Ciencias Exactas, Físicas y Naturales Universidad nacional de Córdoba Córdoba, 2014

Mangeaud Estadistica Aplicada a Las Ciencias Geologicas

Embed Size (px)

DESCRIPTION

Estadística básica para geólogos

Citation preview

  • Estadstica aplicada a las Ciencias Geolgicas

    Autor: Arnaldo Mangeaud

    Facultad de Ciencias Exactas, Fsicas y Naturales

    Universidad nacional de Crdoba

    Crdoba, 2014

  • Estadstica aplicada a las Ciencias Geolgicas

    ndice

    Captulo 1. Introduccin Captulo 2. Anlisis descriptivo de una variable Captulo 3. Anlisis descriptivo de dos variables conjuntas Captulo 4. Probabilidad Captulo 5. Variables Aleatorias I. Captulo 6. Variables Aleatorias II. Distribucin de funciones de variables aleatorias Captulo 7. Distribuciones en el muestreo Captulo 8. Estimacin. Captulo 9. Pruebas de Hiptesis Captulo 10. Diseos Estadsticos. Captulo 11. Correlacin y regresin Captulo 12. Introduccin a la Geoestadstica

  • Estadstica aplicada a las Ciencias Geolgicas

    Captulo 1.

    Introduccin

    Concepto de Estadstica.

    Para comenzar definiremos a la Estadstica como la ciencia que estudia la manera en que se recolecta, se analiza, se interpreta la informacin proveniente de una poblacin, as como el modo en que se extrapola esos resultados a otros casos similares. La estadstica es una ciencia auxiliar de otras ciencias, ayuda a resolver problemas planeados por otras disciplinas en la toma de decisiones o para explicar el comportamiento de fenmenos determinados. La Estadstica es transversal a diferentes disciplinas, desde las ciencias consideradas ms duras como la Geologa, Biologa o Ingeniera hasta las llamadas ciencias blandas como la Psicologa, todas necesitan de la ayuda de esta herramienta. La estadstica se divide en dos grandes reas:

    La estadstica descriptiva se dedica a la descripcin y resumen de la informacin originada a partir de los fenmenos de estudio. Esa informacin puede ser resumida mediante tablas, grficos o medidas de resumen.

    La estadstica inferencial, por su parte extrapola las conclusiones observadas para algunos casos a otros casos de similares caractersticas.

    En la actualidad son muy escasas empresas, industrias o trabajos de investigacin bsica o aplicada donde no se aplique estadstica. A partir de la ltima dcada del siglo pasado con la generalizacin de computadoras se hicieron muy accesibles clculos que haban sido demasiado complicados de realizar anteriormente. Eso permiti que no slo se extienda su uso sino que se desarrollaron nuevas teoras que fueron acompaadas por procedimientos desarrollados directamente en las computadoras y que manualmente son inaccesibles.

    Poblacin. Muestra. Elementos.

    La Estadstica es una ciencia y como tal posee un objeto de estudio. El objeto de estudio de la estadstica son las poblaciones. La definicin estadstica de poblacin es: conjunto de cosas, o conjunto de elementos, o bien conjunto de unidades. Cada unidad, elemento o cosa ser definido por la persona a cargo del trabajo (investigador u operador) y depender de los objetivos e hiptesis del trabajo. Recordemos que definimos como objetivo a aquella meta a la cual se pretende arribar y como hiptesis a una conjetura, a una suposicin realizada de cmo funciona el sistema en estudio. Entonces a partir de objetivos e hiptesis el operador decidir quin es el elemento al que le tomar la informacin. El conjunto de todos estos elementos (obviamente definidos en un espacio y tiempo) sern la poblacin en estudio.

  • Estadstica aplicada a las Ciencias Geolgicas

    A modo de ejemplo, en un estudio de prospeccin se toman porciones de rocas de un cuerpo geolgico. Cada porcin es un elemento, el conjunto de todos ellos, es decir el cuerpo geolgico es la poblacin. Cuando accedemos a la informacin a partir de todos los elementos de la poblacin estamos realizando un censo. Realizar un censo es prcticamente imposible. Sera demasiado costoso en trminos econmicos o logsticos que se pueda contar con la totalidad de la informacin. Ante esta imposibilidad, se debe recurrir a la informacin de algunos de los elementos. Esos elementos a su vez deben representar a la poblacin, por lo que, cuando extraigamos una conclusin para esa porcin de la poblacin vamos a estar extrapolando esa informacin a toda la poblacin. De este modo estamos definiendo el concepto de muestra: Una muestra es una porcin representativa de la poblacin. Y decimos que es representativa para poder inferir sus resultados al resto de la poblacin.

    Ejemplo 1.1. En un estudio en la lnea de costa se toman 120 porciones de 1 m2 del fondo rocoso de una playa. Cada elemento es cada cuadrata de 1 m2, la muestra es el conjunto de 120 cuadratas y la poblacin van a ser todas las posibles cuadratas que componen la playa.

    El modo de pensar en que la muestra sea representativa de la poblacin es pensar que cada uno de los elementos de la poblacin debieran tener igual chance de formar parte de la muestra (es decir de ser escogidos en ella). Si por alguna razn algunos de los elementos no pueden formar parte de la muestra, entonces sus caractersticas propias no estarn representadas.

    Ejemplo 1.2. En el estudio del Ejemplo 1.1 por una cuestin de comodidad o de ineptitud se toman slo porciones de los 10 primeros metros de la playa, excluyendo a las zonas ms cercanas al mar. Esas 120 porciones de 1 m2 no representan el fondo rocoso de la playa. Slo representan el fondo rocoso de los 10 primeros metros de playa.

    Hay diferentes modos de realizar muestreos. Estos dependen del rea de aplicacin y de quin es el elemento o unidad. Por ejemplo en estudios de mineraloga una porcin de roca de 20cm3 es el elemento donde el conjunto de stos forman un cuerpo gneo (la poblacin). En estudio de geoqumica de aguas, una alcuota de 200ml de agua es el elemento y el conjunto de stos forman el ro en este momento (poblacin).

    Hay diversas proposiciones de la clasificacin de los tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: mtodos de muestreo probabilsticos y mtodos de muestreo no probabilsticos. A continuacin se describen los distintos tipos para estos dos grandes grupos, si bien en Geologa, para los estudios que se llevan a cabo, se trabajarn con muestreos probabilsticos.

    Mtodos de muestreo probabilsticos Los mtodos de muestreo probabilsticos son aquellos que se basan en el principio de igualdad de chances (equiprobabilidad). Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y,

  • Estadstica aplicada a las Ciencias Geolgicas

    consiguientemente, todas las posibles muestras de tamao n tienen la misma probabilidad de ser elegidas. Slo estos mtodos de muestreo probabilsticos nos aseguran la representatividad de la muestra extrada y son, por tanto, los ms recomendables. Dentro de los mtodos de muestreo probabilsticos encontramos los siguientes tipos:

    Muestreo aleatorio simple: El procedimiento empleado es el siguiente: Se le asigna un nmero a cada elemento de la poblacin y a travs de algn medio mecnico (bolillas dentro de una bolsa, tablas de nmeros aleatorios, nmeros aleatorios generados con una calculadora o computadora, etc.) se eligen tantos elementos como sea necesario para completar el tamao de la muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin que estamos manejando es muy grande o cuando es imposible enumerar a todos los elementos de la poblacin. Los investigadores a campo suelen seleccionar un valor al azar que distinga latitud y otro que distinga longitud para cada punto.

    Muestreo aleatorio sistemtico: Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es un nmero elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la poblacin sobre el tamao de la muestra: k = N/n. El nmero i que empleamos como punto de partida ser un nmero al azar entre 1 y k. El riesgo de este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la poblacin. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con k=10 siempre seleccionaramos o slo hombres o slo mujeres, no podra haber una representacin de los dos sexos. A su vez son muy cmodos en control de calidad de una cinta de produccin. Es sencillo pensar que cada 100 productos que salen se tomar uno.

    Muestreo aleatorio estratificado: Un estrato se define como un conjunto de unidades que son homogneas entre s y son heterogneas con las unidades de otros estratos. Este tipo de muestreo consiste en definir previamente los estratos que posee una poblacin. A partir de eso se deben tomar muestras aleatorias en cada estrato. La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser de diferentes tipos: Afijacin Simple: A cada estrato le corresponde igual nmero de elementos muestrales. (Por ejemplo 30 elementos de cada estrato) Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de la poblacin en cada estrato (Por ejemplo si un estrato posee el 20% de la poblacin, contribuir con el 20% de la muestra). Afijacin ptima: Se tiene en cuenta la dispersin de los resultados. Como veremos ms adelante, a mayor variabilidad en la poblacin, se deben tomar mayor nmero de elementos de ella para que sea representativa la muestra. Una afijacin es un concepto terico interesante, pero tiene poca aplicacin ya que no se suele conocerse la variabilidad en la poblacin.

  • Estadstica aplicada a las Ciencias Geolgicas

    Muestreo aleatorio por conglomerados: En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la poblacin que forman una unidad llamada conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son reas geogrficas suele hablarse de muestreo por reas. El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto nmero de conglomerados (el necesario para alcanzar el tamao muestral establecido) y en investigar despus todos los elementos pertenecientes a los conglomerados elegidos.

    Mtodos de muestreo no probabilsticos A veces, para estudios exploratorios, el muestreo probabilstico resulta excesivamente costoso y se acude a mtodos no probabilsticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extrada sea representativa, ya que no todos los elementos de la poblacin tienen la misma probabilidad de ser elegidos. En general se seleccionan a los personas siguiendo determinados criterios procurando que la muestra sea representativa. Los resultados que se obtienen son descripciones de esa muestra. Este tipo de muestreo es muy utilizado en estudios sociales.

    Estudios de caso: A los fines descriptivos se toma un grupo de unidades o elementos con ciertas caractersticas. El investigador sabe que la poblacin est formada por un grupo grande de unidades y las unidades que tom no las representan. Es muy comn el estudio de todos los pacientes de un hospital. Los alumnos de un curso en particular o un colegio.

    Muestreo por cuotas: Tambin denominado en ocasiones accidental. Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la poblacin y/o de los individuos ms representativos o adecuados para los fines de la investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carcter de aleatoriedad de aqul. En este tipo de muestreo se fijan unas cuotas que consisten en un nmero de individuos que renen unas determinadas condiciones, por ejemplo: 30 personas de 30 a 40 aos, de sexo femenino y residentes en una determinada regin. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas caractersticas. Este mtodo se utiliza mucho en las encuestas de opinin.

    Muestreo intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras representativas mediante la inclusin en la muestra de grupos supuestamente tpicos. Es muy frecuente su utilizacin en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.

    Muestreo casual o incidental: Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la poblacin. El caso ms frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fcil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios.

    Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y as hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente

  • Estadstica aplicada a las Ciencias Geolgicas

    cuando se hacen estudios con poblaciones marginales, delincuentes, sectas, determinados tipos de enfermos, etc.

    Ya hemos visto el modo en que vamos a acceder a la muestra para que sta sea representativa de la poblacin, ahora la pregunta es: qu informacin vamos a tomar de los elementos o unidades? Los elementos tienen muchsimas caractersticas que pueden ser tomadas y/o medidas y volvemos a objetivos e hiptesis como los estandartes que van a llevar al operador a tomar slo las caractersticas importantes. A su vez aquellas caractersticas que son constantes en la poblacin no sern tomadas, siendo claro que se van a tomar caractersticas que son variables.

    Variables. Tipos

    Las variables son entonces caractersticas que pueden variar de elemento en elemento. Existen varias clasificaciones de las variables. Una de ellas combina clasificacin y formas de medicin quedando entonces:

    Variables cualitativas Las variables cualitativas expresan una cualidad, se representa por una letra, no expresa una cantidad. Pueden ser de dos tipos:

    a) Variables nominales: Son aquellas que expresan el atributo como tal, no expresan ni orden ni escala de medicin.

    Ejemplo 1.3. Tipo de roca presente: cuarzo, feldespato, mica.

    b) Variables ordinales: Son aquellas que expresan el atributo en un ranking u orden. Aunque se las exprese en un nmero este no es tal.

    Ejemplo 1.4.Escala de dureza de Mohs: (1) Talco, (2) Yeso, (3) Calcita,., (9) Corindn, (10) Diamante.

    Variables cuantitativas Expresan una cantidad, un nmero, una mtrica o medida. Pueden ser de dos tipos:

    a) Variables discretas: Est representada por nmeros enteros.

    Ejemplo 1.5. Nmero de rocas de cuarzo de ms de 1 cm de dimetro en una superficie de 30cm2.

    b) Variables continuas: Posee infinitos valores entre los enteros.

    Ejemplo 1.6. Presin a la cual se fractura un bloque de 20 cm3 de una roca.

  • Estadstica aplicada a las Ciencias Geolgicas

    La naturaleza de la variable es la que marca a quel tipo de variable sta pertenece. Como se ve, las variables cualitativas nominales son slo un nombre, sin orden preestablecido, mientras que una variable cualitativa ordinal puede ser una letra pero entre estas letras ya hay un orden establecido. Las variables discretas poseen una mtrica, una medida verdadera, el salto de 1 a 2 es el mismo que de 4 a 5. A su vez las variables continuas poseen infinitos decimales entre los enteros, las diferencias entre un valor y otro pueden ser mucho ms pequeas, ms sutiles y precisas. El operador puede decidir hacerle perder esta jerarqua a la variable, por cuestiones de practicidad, pero no puede inventarle jerarqua. Esto quiere decir que se puede medir como grande, mediano o pequeo a algo que es una variable cuantitativa, pero en una encuesta a personas de una fbrica no existe razn alguna para colocarle el valor 1 si es mujer y 2 si es varn.

    Debemos advertir que se suele incurrir en una discrepancia de trminos entre la Geologa y la Estadstica. Para los estadsticos la muestra es el conjunto de elementos. Para los gelogos la muestra es cada uno de los elementos. Entonces debemos ser cautos en las definiciones para no confundir los trminos. Por otra parte, a los fines coloquiales en este apunte otorgaremos la definicin de dato a aquel valor de la variable, ya sea cuali como cuantitativa. Por ejemplo un dato sera: 32,25 cm; 8 aos, Verde, Mujer, 42 grados centgrados, etc.

  • Estadstica aplicada a las Ciencias Geolgicas

    Captulo 2.

    Anlisis descriptivo de una variable

    Una vez que se ha tomado la decisin sobre cul ser la poblacin estadstica y la muestra a analizar, una vez que se toman o miden las variables en cada elemento, deber registrarse por escrito esta informacin. Despus de eso el operador puede adems trasladar esos datos a una base de datos de modo informtico. Lo que nunca debe hacerse es destruir la base de datos en formato papel. En algn libro alguna vez se ley que es ms duradera la ms suave de las tintas sobre papel que la mejor de las memorias y esto incluye tanto a memoria neuronal como informtica. El papel es siempre el mejor plan B ante la ausencia de un valor, la confirmacin de un dato anmalo o un posible error de tipeo. Ahora, ya sea en papel o en la computadora, se tiene un listado de letras o nmeros, dependiendo si la variable es cualitativa o cuantitativa y debiramos entonces resumir esa informacin. El modo en que la resumimos es mediante tablas, grficos o medidas de resumen.

    Tablas de distribucin de frecuencia

    Variables cualitativas nominales

    Se tiene una variable cualitativa nominal. Por ejemplo se tiran 20 agujas al azar en el fondo de un ro serrano y se registra la roca en la cual toca la aguja. Los resultados son:

    Cuarzo, Cuarzo, Feldespato, Mica, Mica, .........., Cuarzo. Entonces se resume esa informacin en la siguiente tabla:

    Variable (X)

    (FA)

    (FR)

    Cuarzo Feldespato

    Mica Tabla 2.1: Distribucin de frecuencia del tipo de roca.

    Donde: a la variable tipo de roca la denominamos X : Frecuencia Absoluta: nmero de elementos que poseen un valor determinado de la variable. En la tabla 2.1: 6 agujas tocaron a Feldespato. : Frecuencia Relativa: proporcin de elementos que poseen un valor determinado de la variable. En la tabla 2.1: una proporcin de 0,3 tocaron a Feldespato (dicho de otro modo, el 30,00% del fondo del lecho del ro sera Feldespato).

    Los grficos correspondientes a esta tabla son grficos de tortas y de barras (no confundir con histograma).

  • Estadstica aplicada a las Ciencias Geolgicas

    Figura 2.1 Grfico de barras y de torta de una variable cualitativa

    Variables cuantitativas

    Si ocurriera que la informacin que poseemos es escasa, con pocos nmeros diferentes, ni vale la pena agruparla. Entonces se est en presencia de una Distribucin simple o de tipo 1. Por ejemplo:

    Se estudia la ley de oro en una mina, se tiene una muestra de 5 porciones de roca y los valores son (en g/tn): 12; 17; 11; 13; 08.

    Figura 2.2. Representacin grfica de una distribucin de tipo 1

    Si se tienen ms elementos tomados en la muestra, vale la pena el resumirlos en una tabla.

    Distribucin de tipo 2

    Se tiene una variable cuantitativa discreta con pocos valores diferentes. Por ejemplo en una mina se le pregunta a cada empleado de una muestra de 130, el nmero de hijos que posee. Los resultados son:

    1; 2, 0; 5; 7; 3; 1; 1; 3;; 4.

    Entonces ahora s podemos resumir en una tabla donde en cada fila colocaremos el valor de la variable del siguiente modo:

  • Estadstica aplicada a las Ciencias Geolgicas

    Variable (X)

    (FA)

    (FR)

    (FAAa)

    (FRAa)

    (FAAd)

    (FRAd)

    0 1 2 3 4 5 6 7

    Tabla 2.2: Tabla de distribucin de frecuencias de la variable nmero de hijos

    Donde: X es la variable nmero de hijos. : Frecuencia Absoluta: nmero de elementos que poseen un valor determinado de la variable. En la tabla 2.2: 31 personas poseen 1 hijo : Frecuencia Relativa: proporcin de elementos que poseen un valor determinado de la variable. En la tabla 2.2: una proporcin de 0,2385 poseen 1 hijo (dicho de otro modo, el 23,85% poseen un hijo). Frecuencia Absoluta Acumulada ascendente: nmero de elementos acumulados que poseen un valor determinado de la variable y sus valores inferiores. En la tabla 2.2: 51 personas poseen 1 hijo o menos. Frecuencia RelativaAcumulada ascendente: proporcinde elementos acumulados que poseen un valor determinado de la variable y sus valores inferiores. En la tabla 2.2: una proporcin de 0,3923 poseen 1 hijo o menos. Frecuencia Absoluta Acumulada descendente:nmero de elementos acumulados que poseen un valor determinado de la variable y sus valores superiores. En la tabla 2.2: 110 personas poseen 1 hijo o ms. Frecuencia Relativa Acumulada descendente: proporcinde elementos acumulados que poseen un valor determinado de la variable y sus valores superiores. En la tabla 2.2: una proporcin de 0,8426 poseen 1 hijo o ms.

    Los grficos que corresponden a esta distribucin son los que se presentan en la Figura 2.2.

  • Estadstica aplicada a las Ciencias Geolgicas

    Figura 2.3.Representacin grfica de una distribucin de tipo 2. Se presenta un grfico de bastones y de escalones (frecuencia acumulada)

    Distribucin de tipo 3

    Se tiene una variable cuantitativa continua o una cuantitativa discreta con muchos valores diferentes. Por ejemplo se tomaron 68 porciones de roca para estudiar la distribucin del cobre en una mina. Los resultados (en g/tn) son:

    423,07; 452,23;...; 561,34.

    Como se puede ver es imposible disponer una tabla en la forma de la tabla 2.2, ya que si una variable es continua es poco probable tener dos valores iguales de la variable. De tal modo, quedara una tabla con 68 filas donde cada fila poseer una frecuencia absoluta de 1 (uno) para resumir 68 valores. Por lo tanto es necesario dividir a la variable en distintos intervalos de clase. Cada intervalo a su vez posee una amplitud determinada. No hay un nmero de intervalos exactos, pero una aproximacin a ste fue propuesta por Sturges en 1936 que se obtiene mediante la frmula:

    k= 1+3,33 Log10(n), Donde k es el nmero ptimo de intervalos.

    - (FA) (FR) (FAAa) (FRAa) (FAAd) (FRAd)

    Tabla 2.3. Tabla de distribucin de frecuencias de la variable ley de Cobre

    Donde:

    X: variable ley de Cobre (en g/tn) MC: Marca de clase (se obtiene promediando los extremos del intervalo) : Frecuencia Absoluta: nmero de elementos que se encuentran en un determinado intervalo de valores de la variable. En la tabla 2.3: 11 porciones de roca poseen entre 448,15 y 473,23 g/tn. : Frecuencia Relativa: proporcin de elementos que se encuentran en un determinado intervalo de valores de la variable. En la tabla 2.3: una proporcin de 0,1618 poseen entre 448,15 y 473,23 g/tn (dicho de otro modo, el 16,18%). Frecuencia Absoluta Acumulada ascendente: nmero de elementos acumulados que poseen un valor determinado de la variable y sus valores inferiores. En la tabla 2.3: 13 porciones de roca poseen menos de 473,23 g/tn.

  • Estadstica aplicada a las Ciencias Geolgicas

    Frecuencia Relativa Acumulada ascendente: proporcin de elementos acumulados que poseen un valor determinado de la variable y sus valores inferiores. En la tabla 2.3: una proporcin 0,1912, poseen menos de 473,23 g/tn. Frecuencia Absoluta Acumulada descendente:nmero de elementos acumulados que poseen un valor determinado de la variable y sus valores superiores. En la tabla 2.3: 66 porciones de roca poseen ms de 448,15 g/tn. Frecuencia Relativa Acumulada descendente: proporcinde elementos acumulados que poseen un valor determinado de la variable y sus valores superiores. En la tabla 2.3: una proporcin de 0,9706 poseen ms de 448,15 g/tn.

    A partir de la tabla 2.3 se pueden construir dos tipos de grficos: histogramas de frecuencias y su respectivo grfico acumulado.

    a

    b Figura 2.4. Representacin grfica de una distribucin de tipo 3. Se presenta un histograma de frecuencias y de frecuencias acumuladas.

    Se observa en la Figura 2.4a la presencia de un polgono de frecuencias que pasa por el valor central de cada intervalo y en la Figura 2,4b una ojiva de frecuencias que pasa por el mayor valor del intervalo.

    Formas de la distribucin.

    Es muy comn observar grficos de distribucin donde slo se grafican el eje x y una lnea suavizada del polgono de frecuencias. De ese modo podremos observar la forma de la distribucin de la variable. Esas formas pueden ser simtricas, asimtricas a la derecha, a la izquierda, entre otros casos. (Figuras 2.5).

  • Estadstica aplicada a las Ciencias Geolgicas

    a

    b

    c

    d Figuras 2.5. Formas de diferentes distribuciones. a: simtrica, b: asimtrica a la derecha, c: asimtrica a la izquierda, d: en forma de J invertida.

    Medidas de resumen

    Antes que explicar las medidas de resumen de la informacin, debemos advertir que en el Captulo 8 se vern las diferencias que hay entre la informacin tomada de una poblacin (exhaustiva) y la informacin tomada de una muestra (parcial). Es claro que la informacin de la poblacin es total y completa, mientras que lo que tomamos en una muestra es incompleta y depende de cules fueron los elementos que ingresaron en la muestra. Por esta razn es que vamos a diferenciar algunas medidas de resumen dependiendo si han sido tomadas de una poblacin o de una muestra.

    Medidas de posicin Media, media aritmtica o promedio. Su definicin es exclusivamente algebraica: es la sumatoria de los valores de la variable, dividido el nmero de elementos de la muestra o poblacin.

    Poblacional Muestral

    Donde: Donde: : Media poblacional : Media muestral : Valores de la variable : Valores de la variable N: nmero de elementos de la poblacin n: nmero de elementos de la muestra

    Obtencin de la media segn el tipo de distribuciones.

    Distribucin de tipo 1:

  • Estadstica aplicada a las Ciencias Geolgicas

    Volviendo al ejemplo sobre los 5 datos de ley de oro. 12; 17; 11; 13; 08. Veremos que: ! "

    Distribucin de tipo 2: Volviendo al ejemplo descripto en la tabla 2.2, el promedio de hijos por empleado se calcula: #$#%$ &' ( ') & ( ) & ( !) & ( *) &+ ( ) & ( *) &! ( ) & ( )' +' "'

    Distribucin de tipo 3: Volviendo al ejemplo descripto en la tabla 2.3, el promedio de Cobre es de: #$#%$ &+ "! ( ) +!'"!* ( ) #&+ " ( ) & '"+ ( ) "* ( ) ! ( )! +'" ! '"'**

    Mediana Es el valor de la variable que es superado por el 50% de los valores ms grandes de la variable y supera al 50% ms pequeo. Dicho de otro modo, es el valor de la variable que est (de modo ordenado) en el centro de la distribucin. La frmula que se presentar a continuacin es la frmula para hallar la posicin de la mediana y no es la frmula de la Mediana. ,-.#&/0) 12 , Donde Pos (Me) es la posicin de la mediana y n: nmero de elementos de la Muestra. Si se posee un nmero impar de datos, el valor de la Mediana corresponde a la posicin correspondiente, si es un nmero par, se promedian los dos valores centrales.

    Obtencin de la mediana segn el tipo de distribuciones.

  • Estadstica aplicada a las Ciencias Geolgicas

    Distribucin de tipo 1: Recurriendo al ejemplo sobre los 5 datos de ley de oro. 12; 17; 11; 13; 08. Veremos que ordenados ellos son: 08; 11; 12; 13; 17. Si n= 5, entonces Pos (Me)= 3, por lo que la Mediana= 12

    Distribucin de tipo 2: Recurriendo al ejemplo descripto en la tabla 2.2, la Mediana de hijos por empleado se obtiene buscando al valor de la variable donde est el valor que ordenado es (n+1)/2. Como n= 130, la posicin sera 131/2= 65,5. En la tabla se observa que el valor acumulado 65,5 corresponde a 2 hijos

    Distribucin de tipo 3: Con el ejemplo descripto en la tabla 2.3, la Mediana de Cobre se encuentra en el intervalo que acumula al valor que ordenado est en la posicin (68+1)/2= 34,5. Entonces la mediana est en el intervalo entre 498,30 y 523,38. Una manera de encontrar un valor estimado en ese intervalo es mediante la siguiente frmula:

    /0#&) 3 43 ( # 12 5 33 5 3 Donde: 3 : Valor inferior de la variable en el intervalo determinado como que posee a la Me (x) 43 : Amplitud del intervalo 3 : Frecuencia absoluta acumulada del intervalo determinado como que posee a la Me (x) 3: Frecuencia absoluta acumulada del intervalo anterior al determinado como que posee a la Me (x)

    Esto se apoya con el modo grfico de obtener la mediana (Figura 2.5)

    Figura 2.6. Mtodo grfico de obtencin de la Mediana en distribuciones de tipo 3.

    Cuartilos: Son valores de la variable que superan a cierto porcentajes de la variable. Cuartilo 1: Q1: Supera al 25% ms pequeo de la variable y es superado por el 75% ms grande.

  • Estadstica aplicada a las Ciencias Geolgicas

    Cuartilo 2: Q2=Me: Supera al 50% ms pequeo de la variable y es superado por el 50% ms grande. Cuartilo 1: Q3: Supera al 75% ms pequeo de la variable y es superado por el 25% ms grande.

    Percentiles: Son valores de la variable que superan a un porcentaje en particular segn el inters del operador, por ejemplo: Percentil 5: P05: Supera al 5 % ms pequeo y es superado por el 95% ms grande. Percentil 99: P99: Supera al 99% ms pequeo y es superado por el 1% ms grande.

    Modo o moda Es el valor de la variable ms frecuente, el valor que posee mayor frecuencia absoluta o relativa (ni hi).

    Obtencin del modo segn el tipo de distribuciones.

    No se puede obtener el Modo en distribuciones de tipo 1, ya que ninguno de los valores es el que ms se repite.

    Distribucin de tipo 2: Recurriendo al ejemplo descripto en la tabla 2.2, el Modo de hijos por empleado se obtiene buscando al valor de la variable con mayor frecuencia. Esto es que con una frecuencia de 36 se encuentra el valor 2. Por lo tanto la moda es 2 hijos.

    Distribucin de tipo 3: Con el ejemplo descripto en la tabla 2.3, la Moda de Cobre se encuentra en el intervalo que acumula al ni= 18. Entonces la Moda est en el intervalo entre 473,23 y 498,30. Una manera de encontrar un valor estimado en ese intervalo es mediante la siguiente frmula: /-#&) 3 43 ( # 3 # 5 3&3 # 5 3) &3 # 5 3) Donde: 3 : Valor inferior de la variable en el intervalo determinado como que posee a la Mo(x) 43 : Amplitud del intervalo 3 : Frecuencia absoluta del intervalo determinado como que posee a la Mo(x) 3: Frecuencia absoluta del intervalo anterior al determinado como que posee a la Mo(x) 3: Frecuencia absoluta del intervalo posterior al determinado como que posee a la Mo(x)

    Esto se apoya con el modo grfico de obtener la Moda (Figura 2.7)

  • Estadstica aplicada a las Ciencias Geolgicas

    Figura 2.7. Mtodo grfico de obtencin de la Moda en distribuciones de tipo 3.

    Existen otras medidas de posicin como Media geomtrica, Media armnica, entre otras que poseen otras propiedades y las cuales escapan a los objetivos de este apunte.

    Relaciones entre las distintas medidas de posicin.

    En variables cuya distribucin es simtrica se observa que los valores de Media, Mediana y Modo coinciden. Mientras que en las distribuciones asimtricas se van distanciando a medida que se incrementa la asimetra.

    a

    b Figuras 2.8.a: Distribucin simtrica donde coinciden Media, Mediana y Modo. b: Distribucin asimtrica a la derecha, donde Media > Mediana> Modo.

    El rango de valores de las medidas de posicin es de menos infinito a infinito bien depende del rango de valores de cada variable en particular. La unidad en que se expresan las medidas de posicin corresponde a la misma unidad de la variable. Dicho de otro modo si la variable es hijos, la Media, Mediana y Modo se expresarn en hijos y si es g de Cu, ser g de Cu.

    Medidas de dispersin.

    Rango o recorrido. Es la diferencia entre el mayor y el menor valor de la variable, es decir, que es la distancia que recorre la variable desde el valor ms pequeo al ms grande: 67 897 5 81

  • Estadstica aplicada a las Ciencias Geolgicas

    Donde: 67 Rango o recorrido 897 = mayor valor de la variable 81 = menor valor de la variable

    Recorrido intercuartlico Es la diferencia entre el Cuartilo 3 y el Cuartilo 1 de la variable. Es decir es la distancia en la que se encuentran el 50% central de los valores de loa variable 6:;7

  • Estadstica aplicada a las Ciencias Geolgicas

    El desvo estndar no posee una frmula propia, sino que es la raz cuadrada de la Varianza. ? ?2A B B2A

    Frmulas de trabajo Para hacer ms sencillo el clculo manual de estas dos frmulas se puede trabajar con las siguientes frmulas: ?2 E& 5 F)2 B2 5 E& 5 )2

    ?2 E&2 5 F F2) B2 5 E&2 5 2)

    ?2 &E 2 5 E F E F2) B2 5 &E 2 5 E E 2)

    ?2 &E 2 5 F E F2) B2 5 &E 2 5 E 2)

    ?2 &E 2 5 FF F2) B2 5 &E 2 5 2)

    ?2 &E 2 5 F2 F2) B2 5 &E 2 5 2 2) ?2 &E 2 5 F2)

    B2 5 &E 2 5 2)

    De este modo se observa que:

    ?2 A 5 2 B2 A 5 17A1

    Coeficiente de variacin. Para realizar comparaciones entre variables con diferentes mtricas o escalas se utiliza el Coeficiente de variacin. Este es una medida adimensional (se simplifican las unidades) y se lo suele multiplicar x 100 para expresarlo en porcentajes. Expresa cun grande es el desvo estndar con respecto a la media.

    4G7 H@ 4G7 IC

    Donde: Donde:

  • Estadstica aplicada a las Ciencias Geolgicas

    JK:Coeficiente de variacin JK: Coeficiente de variacin L : Desvo poblacional M : Desvo muestral : Media poblacional C: Media muestral

    El rango de valores de las medidas de dispersin descriptas es de 0 a . La varianza posee como unidad al cuadrado de la unidad de la variable, mientras que el Coeficiente de variacin no posee unidad, en todos los casos restantes que se han visto, la unidad en la que se expresa cada medida de dispersin es la misma de su variable.

    Medidas de Asimetra

    Con la finalidad de darle un valor a la forma de las diferentes distribuciones se han propuestos distintas frmulas. Estas intentan cuantificar la forma que se produce la asimetra (a la derecha como positiva y a la izquierda como negativa). Si es simtrica la distribucin su coeficiente ser cero.

    Asimetra de Pearson: NO C 5 PQ. NO2 &C 5 PR).

    Asimetra de Fisher

    NS =.= & 5 C)=% .=

    Medidas de Curtosis (Apuntalamiento) Otorgan un valor numrico a la puntiagudez. Se dice que es mesocrtica una distribucin con valor cero, mientras que es platicrtica una distribucin aplastada y leptocrtica una distribucin puntiaguda.

    TS U.U & 5 C)U% .U 5

    Momentos de orden r Como se puede ver en las frmulas de Media, Varianza, Simetra (de Fisher) y Curtosis se est ante frmulas muy similares que cambian slo a qu valor estn elevadas.

    Entonces definimos momento de orden r a: /VCCCC & 5 )W% 5

  • Estadstica aplicada a las Ciencias Geolgicas

    Y como se ha visto: El momento de orden 1 corresponde a la Media, el de orden 2 a la Varianza, el de orden 3 a la Asimetra y el de orden 4 a la Curtosis.

    Slo a los fines de terminar el captulo presentaremos un grfico denominado Grfico de cajas, donde se puede observar Media, Mediana, Cuartilos y Percentiles. A su vez se observa la distancia del recorrido intercuartlico, si la variable es o no simtrica y si se presentan datos anmalos o extremos (Figura 2.9).

    a

    b

    Figura 2.9. Grfico de cajas de una distribucin simtrica (a) y asimtrica (b). Se observan Percentiles, Cuartilos y Mediana, as como el punto representa Media y datos extremos.

  • Estadstica aplicada a las Ciencias Geolgicas

    Captulo 3.

    Anlisis descriptivo de dos variables conjuntas.

    Introduccin.

    Muchas veces ocurre que el investigador est interesado en estudiar no slo las variables por separado sino que adems cmo se comportan conjuntamente dos variables. En este captulo realizaremos la descripcin de esos casos, tal como lo hicimos en el captulo 2 con slo una variable, mediante tablas, grficos y medidas de resumen.

    Tablas de distribucin bivariadas

    Del mismo modo que describimos el modo en que se realizaban tablas para conocer la distribucin de frecuencias de una variable, tambin ocurre que con dos variables se pueden construir tablas que combinen distribuciones de tipo II o III de ambas variables.

    Ejemplo 3.1. Se tienen 44 muestras de suelo en una zona contaminada y se desea saber cmo se comportan conjuntamente el Cadmio y Nquel.

    A partir de esto se construye una tabla conjunta, teniendo en cuenta que ambas distribuciones son de tipo III.

    Variable Nquel 8 a 20 20 a 32 32 a 44 44 a 56 n

    .j MC 14 26 38 50

    1 a 3 2 4 2 0 0 6 Cadmio 3 a 5 4 6 7 1 0 14

    5 a 7 6 2 3 9 2 16 7 a 9 8 0 1 2 3 6

    9 a 11 10 0 0 1 1 2 ni. 12 13 13 6 44

    Tabla 3.1. Tabla de distribucin de frecuencias bidimensional de Cadmio y Nquel

    En la Tabla 3.1 se observa la variable Nquel cuyos intervalos se presentan en columnas, mientras que en filas se presentan los intervalos de la variable Cadmio. Se presentan las marcas de clases (MC) de los respectivos intervalos y las frecuencias absolutas marginales. Podremos decir que 6 muestras presentaron entre 1 a 3 g de Cadmio, que 13 muestras presentaron entre 20 a 32 g de Nquel. La distribucin conjunta de ambas variables nos lleva a concluir que 9 muestras presentaron entre 32 a 44 g de Nquel y 5 a 7 g de Cadmio.

    A partir de las marcas de clases respectivas y los n marginales podremos calcular todas las medidas de posicin y dispersin vistas en el Captulo 2.

  • Estadstica aplicada a las Ciencias Geolgicas

    Covarianza.

    La Covarianza es una medida de variacin conjunta de ambas variables, a saber:

    Covarianzas ?77A2 &@) &A@A) B77A2 &C) &ACA) 2

    Donde: Donde: ?77A2 : Covarianza poblacional B77A2 : Covarianza muestral : Media poblacional de la variable x1 X : Media muestral de la variable x1 2: Media poblacional de la variable x2 2CCC : Media muestral de la variable x2 Valores de la variable valores de la variable N: nmero de elementos de la poblacin n: nmero de elementos de la muestra

    El recorrido de la Covarianza es: 5Y Z ?77A2 Z #Y

    Cuando la Covarianza obtiene valores cero se dice que las variables x1 y x2 no poseen asociacin lineal, cuando adquiere valore positivos se dice que x1 y x2 poseen una asociacin lineal positiva (x1 y x2 incrementan juntos), cuando la covarianza es negativa se dice que la asociacin lineal es inversa: cuando x1 sube, x2 baja. La Figura 3.1 muestra tres casos de asociaciones, donde se interpreta porqu la Covarianza arroja diferentes valores.

    Coeficiente de Correlacin lineal de Pearson.

    A partir de un teorema que dice que: [#?77A2 [ # \ #?7 #?7Ael investigador Karl Pearson(1857-1936) estandariz la Covarianza en lo que se denomina el Coeficiente de Correlacin Lineal, donde:

    Coeficiente de Correlacin lineal Poblacional Coeficiente de Correlacin lineal Muestral

    ]77A H^^AA#H^ #H^A V77A I^^AA#I^ #I^A

    Donde: Donde: ]77A : Coef. de correlacin lineal poblacional V77A: Coef. de correlacin lineal muestral ?77A2 : Covarianza poblacional B77A2 : Covarianza muestral #?7 Desvo poblacional de x1 #B7 Desvo muestral de x1 #?7A Desvo poblacional de x2 #B7A desvo muestral de x2

    El recorrido del Coeficiente de correlacin lineal es: 5 Z #] Z

  • Estadstica aplicada a las Ciencias Geolgicas

    Cuando ] obtiene valores cero se dice que las variables x1 y x2 no estn correlacionadas, cuando adquiere valores positivos se dice que x1 y x2 poseen una correlacin lineal positiva (x1 y x2 incrementan juntos), cuando] es negativo se dice que la correlacin lineal es inversa: cuando x1 sube, x2 baja.

    a

    b

    c

    d

    Figura 3.1.Grficos con cuatro casos con valores de correlacin y covarianza. a: asociacin lineal positiva, b: asociacin lineal negativa, c: ausencia de asociacin, d: presencia de una asociacin pero no lineal.

  • Estadstica aplicada a las Ciencias Geolgicas

    Captulo 4.

    Probabilidad. Introduccin.

    Cuando sin conocimientos previos pensamos en la idea de una probabilidad, surgen como sinnimos palabras como posibilidad o chance. En principio continuaremos con la idea de chance hasta que tengamos las herramientas para definir matemticamente a las probabilidades.

    Experimento aleatorio

    Definiremos como experimento aleatorio a toda aquella experiencia que trae aparejado un resultado que no se sabe a ciencia cierta cul ser. Es decir no hay certeza del resultado. Aqu resulta sencillo pensar como ejemplos en los juegos de azar. Si una persona tiene en sus manos una moneda y decide tirarla no hay certeza del resultado.

    Ejemplo 4.1: Se tira una moneda y se observa el resultado. Ejemplo 4.2: Se tiran dos dados y se cuenta la suma de sus caras. Ejemplo 4.3: Se analiza una poblacin de nios de un colegio y se realiza un anlisis para observar la presencia o ausencia de un determinado virus.

    Espacio muestral.

    Definiremos al espacio muestral como el conjunto de todos los resultados posibles arrojados por un experimento aleatorio. Para continuar con el ejemplo de la tirada de una moneda los dos resultados posibles son cara y cruz. Distintos autores definen al espacio muestral con la letra S o bien Omega (). Entonces para el caso anterior:

    Ejemplo 4.1: = {C, X} Ejemplo 4.2: = {2, 3, 4, 5,..., 11, 12} Ejemplo 4.3: = {presencia de virus, ausencia de virus}

    Evento: Cada uno de los resultados posibles de una experiencia aleatoria se denominar evento. En realidad se define como evento a cualquier subconjunto del espacio muestral (pero a los fines prcticos en este apunte utilizaremos como sinnimos lo que en algunos libros denominan eventos y sucesos).

    Ahora, una vez definidos experimento aleatorio, espacio muestral y evento, definiremos Probabilidad.

    Sea E un experimento aleatorio, que genera un espacio muestral , compuesto por eventos, una probabilidad es un nmero real que se le asigna a cada uno de los eventos, tal que cumplen con los siguientes axiomas:

  • Estadstica aplicada a las Ciencias Geolgicas

    1) P (A) 0 La probabilidad de cualquier evento (por ejemplo A) es mayor o igual a cero (dicho de otro modo, no existen las probabilidades negativas).

    2) P ()= 1 La probabilidad del espacio muestral es igual a uno (no existen probabilidades mayores a uno).

    3) Si A B = _ , entonces P (A U B)= P (A) + P (B) Si no existe la interseccin entre los conjuntos A y B (es un espacio vaco) entonces la probabilidad de la unin entre A y B ser igual a la suma de sus probabilidades.

    Figura 4.1. Diagrama de Venn, donde se observa que no existe interseccin entre A y B.

    A partir de estos axiomas postulados por Kolmogorov en 1937, se desprenden varias propiedades, las ms importantes a los fines de este curso son:

    Propiedades 1) P (_)= 0

    La probabilidad del espacio vaco es igual a cero. Lo que no existe, tiene probabilidad cero.

    2) Si A B _, entonces P (A U B)= P (A) + P (B) P(A B) Si la interseccin entre los conjuntos A y B existe, entonces la probabilidad de la unin entre A y B ser igual a la suma de sus probabilidades menos la probabilidad de la interseccin.

  • Estadstica aplicada a las Ciencias Geolgicas

    Figura 4.2. Diagrama de Venn donde se observa la interseccin (a cuadros) entre A y B.

    3) ,#&N)CCC 5 ,&N) Podramos decir que el complemento del evento A es el conjunto de todos los eventos que no son A, dicho de otro modo la probabilidad que no ocurra A. De ese modo la probabilidad de que no ocurra A es la diferencia entre la probabilidad del espacio muestral menos la del evento A.

    Figura 4.3 Diagrama de Venn donde se destaca (rayado) el complemento de A.

    4) Independencia. Se dice que dos eventos A y B son independiente si la probabilidad de la interseccin entre ellos es igual al producto de sus probabilidades, es decir, si

    P (A B)= P (A) * P (B), entonces A y B son independiente

    5) Condicionalidad. Se define la condicionalidad de un evento a otro del siguiente modo: ,&N`a) b&cde)b&e) , lo cual se lee: La probabilidad de A condicionado a B es igual a la probabilidad de la interseccin entre A y B dividido la probabilidad de B.

  • Estadstica aplicada a las Ciencias Geolgicas

    Figura 4.4: Diagrama de Venn donde se destaca que la probabilidad de que ocurra A dado que ya ocurri B es el cociente entre el nABy nB

    6) Dos eventos A y B son mutuamente excluyentes si la ocurrencia de A excluye a B y viceversa. P(A B) =_,

    Asignacin de probabilidad.

    1) Asignacin Clsica: Para aplicar esta asignacin es necesario que todos los eventos del espacio muestral tengan igual probabilidad de ocurrencia: ,&N) # fg0V-#h0#0i0j-.#h0#N#&kli-Vlmn0.)fg0V-#h0#0i0j-.#opqlng0j0#r-.omn0.

    Ejemplo 4.4: Para la experiencia aleatoria tirada de una moneda perfecta, cada una de los dos resultados posibles posee una probabilidad de . Ejemplo 4.5: Para la experiencia aleatoria tirada de un dado perfecto, cada uno de los resultados posibles posee una probabilidad de 1/6.

    Como se puede observar la asignacin clsica est restringida a escasos experimentos aleatorios (en general a juegos de azar). Para los otros casos (la gran mayora) para conocer las probabilidades se necesita aplicar otra asignacin.

    2) Asignacin frecuencista: ,&N)1st # fg0V-#h0#-r-Vjqohlh0.#uq0#.0#rV-hqv-#0n#0i0j-##N#&kli-Vlmn0.)fg0V-#h0#-r-Vjqohlh0.#uq0#.0#V0rojow#0n#0r0Vog0j-#ln0lj-Vo-

    Ejemplo 4.6: En el ejemplo 4.3, se realiza un muestreo y se divide el nmero de nios con virus sobre el nmero de nios muestreados, eso arroja la probabilidad de encontrar nios con virus. Ejemplo 4.7: La Tabla 2.1 del captulo 2 presenta la distribucin de frecuencias sobre las rocas encontradas en el fondo de un ro serrano, a partir de eso decimos que existe una probabilidad de 0,55 de encontrar cuarzo (11/20).

    3) Asignacin Bayesiana.

  • Estadstica aplicada a las Ciencias Geolgicas

    Se basa en el teorema de Bayes (o de las probabilidades condicionadas). Los investigadores pueden intervenir subjetivamente en la asignacin de las probabilidades. Dada la complejidad de esta asignacin slo la nombraremos, aunque en algunas reas como mejoramiento animal y gentica es muy utilizada.

  • Estadstica aplicada a las Ciencias Geolgicas

    Captulo 5.

    Variables Aleatorias I.

    Introduccin.

    En el Captulo 1 definimos a una variable como un carcter, una caracterstica de las unidades que tombamos con el objetivo de estudiarlas. Repetimos este concepto para enfatizar que NO es esa la definicin de Variable Aleatoria que veremos a continuacin por lo que se debe prestar especial atencin ya que no son sinnimos variable y variable aleatoria.

    Variable aleatoria

    Dado un experimento aleatorio E y un espacio muestral asociado, una variable aleatoria es una funcin X que le hace corresponder a cada uno de los eventos del espacio muestral un nmero real. Si el nmero real slo se puede expresar en enteros, a la variable aleatoria se le denomina variable aleatoria discreta, pueden tener decimales, es una variable aleatoria continua.

    Variables aleatorias discretas

    Ejemplo 5.1 Se tiran dos monedas y se anota el nmero de caras que salen.

    El espacio muestral original de la experiencia anterior es:

    = {XX, XC, CX, CC}, y esto trae aparejado: 0 1 1 2

    Figura 5.1. Diagrama de la aplicacin de una variable aleatoria.

    Entonces si tabulamos los resultados tendremos

  • Estadstica aplicada a las Ciencias Geolgicas

    Tabla 5.1. Valores de probabilidad basados en la asignacin clsica.

    Funcin de probabilidad.

    Sea X una variable aleatoria discreta, se denomina funcin de probabilidad a la funcin p que le hace corresponder a cada uno de los resultados posibles x, un nmero real p(x), tal que se cumplan los axiomas de probabilidad.

    Figura 5.2. Grfico de la funcin de probabilidad en el Ejemplo 5.1

    Funcin de distribucin.

    Sea X una variable aleatoria discreta, se denomina funcin de distribucin a la funcin P, tal que:

    ,7x # E r&7)7x

    7%7

  • Estadstica aplicada a las Ciencias Geolgicas

    Figura 5.3. Grfico de la funcin de distribucin en el Ejemplo 5.1.

    De este modo se puede observar que la tabla 5.1 posee tres columnas: la columna de los valores de la variable aleatoria discreta, la columna de la funcin de probabilidad y la de la funcin de distribucin. Relacionemos esto con lo que se ha visto en el captulo 2, Tabla 2.1 y en el captulo 4: asignacin frecuencista de las probabilidades. Podemos observar que lo que en forma descriptiva llambamos frecuencia relativa, y asumiendo que esa tabla fue fruto de un experimento aleatorio, se tienen que esa columna coincide con la idea de la funcin de probabilidad, estableciendo probabilidades de un modo frecuencista. La diferencia fundamental es que lo desarrollado en el captulo 2 ocurre despus de haber tomado la muestra, en este captulo se desarrolla de forma terica, antes de tomar la muestra.

    Esperanza y varianza de una variable aleatoria discreta. (v.a.d.)

    Sea X una v.a.d., la Esperanza matemtica o valor esperado de la variable aleatoria X se define como: y&z) E #r&){^

    Para la Tabla 5.1 se obtiene:

    Tabla 5.2. Procedimiento para el clculo de la E(x) en el ejemplo 5.1. y&z)

    Resulta lgico pensar que si tiramos muchas veces dos monedas el valor esperado de nmero de caras que sacaremos ser 1.

    Sea X una v.a.d., la Varianza de X se define como: G&z) y&z2) 5 &y&z))2

    Veamos el ejemplo anterior:

    2 2 ( r&)

  • Estadstica aplicada a las Ciencias Geolgicas

    Tabla 5.3.Procedimiento para el clculo de la V(x) en el ejemplo 5.1. G&z) &!`+)2 5 &+`+)2 G&z) 2,25 - 1= 1,25

    Variables aleatorias continuas (v.a.c.)

    Ejemplo 5.2: Supongamos que se toma de una poblacin de alcuotas de agua de un lago (es decir todo el lago) una variable aleatoria continua, como por ejemplo pH. Entonces definimos:

    Funcin de densidad.

    Sea X una v.a.c., se dice que f (x) es una funcin de densidad si satisface las siguientes condiciones (recordemos que esto viene de los axiomas de probabilidad):

    a) F(x)>0 para todo X en el R(x) b) | k&)h{7 = 1

    Figura 5.4 Grfico de la funcin de densidad del ejemplo 5.2.

    Funcin de distribucin. Sea X una v.a.c., se denomina funcin de distribucin a la funcin F, tal que: 7 # } k&)h7t

    Ejemplo 5.3: Se tiene una funcin de las siguientes caractersticas: Funcin de densidad f(x)= 2x, 0 < x < 1

    0 para cualquier otro valor.

  • Estadstica aplicada a las Ciencias Geolgicas

    Entonces tendremos una funcin de distribucin:

    0 si x 1

    Figura 5.5a Grfico de la funcin de distribucin del ejemplo 5.3.

    Figura 5.5b. Grfico de la funcin de distribucin del ejemplo 5.2.

    Esperanza y varianza de una variable aleatoria continua. (v.a.c.)

    Esperanza

    Sea X una v.a.c., la Esperanza matemtica o valor esperado de la variable aleatoria X se define como:

    y&z) # } #k&)h{

    Volviendo al ejemplo 5.3:

  • Estadstica aplicada a las Ciencias Geolgicas

    y&z) # } 2#h =~

    {

    Varianza

    Sea X una v.a.c., la Varianza de X se define como: G&z) y&z2) 5 &y&z))2

    Del ejemplo 5.3 se obtiene:

    G&z) #y&2) 5 &y&))2 + U~

    5 &)2

    Propiedades de la Esperanza y la Varianza de variables aleatorias

    Existen numerosas propiedades de stas, veremos slo las relevantes:

    Sea X una v.a., y E(X) y V(X) sus Esperanza y Varianza, y c= constante

    1) E(c) = c 2) E (X + c) = E (X) + c 3) E (X * c) = E (X) * c 4) V(c) = 0 5) V (X + c) = V (X) 6) V (X * c) = V (X) * 2

    Distribuciones especiales de Probabilidad

    1) Distribuciones de variables aleatoria discretas a) Distribucin Binaria.

    Esta distribucin no es aplicable a situaciones reales, sino que es terica y sirve como una introduccin a aquellas distribuciones ms complejas:

    Sea E un experimento aleatorio con un espacio muestral que posee slo dos resultados posibles: xito o Fracaso (definido el xito por el operador, dependiendo de la situacin estudiada). Se define a la variable aleatoria X como 1, si el resultado es xito y 0 si el resultado es fracaso

    = {xito, Fracaso}, y esto trae aparejado: X 0 1 Y el recorrido de la Variable ser entonces 67 '"

    Funcin de probabilidad

  • Estadstica aplicada a las Ciencias Geolgicas

    Se le asignar p como la probabilidad de x=1 y q=1-p a la probabilidad de x=0

    Esto se suele expresar del siguiente modo: z#a&r) r7u7 Lo que significa que la variable aleatoria X posee distribucin Binaria, con parmetro p. Luego se expresa la funcin de probabilidad.

    Como se puede observar si el evento es un xito, x=1, por lo que la probabilidad ser p, mientras que si el evento es un fracaso, x=0, por lo que su probabilidad ser q.

    Esperanza y varianza de la distribucin Binaria.

    E(X)= p V(X)=p q

    Ejemplo 5.4. El ejemplo es trivial. Un suelo de un campo de cultivo posee el 85% contaminado por herbicidas: Cul es la probabilidad de tomar una porcin del suelo al azar y que est contaminado?

    Asumamos que el xito a los fines de esta investigacin estar dad por una muestra contaminada, por lo tanto: z#a&'" ) '" 7'" 7

    Entonces ,& ) '" '" ~ = 0,85

    Podramos preguntarnos Cul es la probabilidad de tomar una porcin del suelo al azar y que no est contaminada?

    ,& ') '" ~'" = 0,15

    Aunque todas las distribuciones que veremos a continuacin poseen una definicin terica, las veremos con el desarrollo de un ejemplo para que resulte ms sencilla su interpretacin.

    b) Distribucin Binomial.

    Surge de repetir n veces una experiencia aleatoria binaria.

    Ejemplo 5.5: Retomando el ejemplo anterior (Ejemplo 5.4) se pide ahora que un operador tome 5 muestras en el suelo y la variable aleatoria X ser el nmero de muestras de suelo contaminadas (Ntese que hemos utilizado el trmino muestra que en la jerga de la geologa implica una porcin de suelo, aunque sabemos que estadsticamente nos estamos refiriendo a unidad).

  • Estadstica aplicada a las Ciencias Geolgicas

    Siendo N no contaminada y C contaminada, el espacio muestral para esta experiencia est dado por:

    = {NNNNN; CNNNN; NCNNN; NNCNN; NNNCN; NNNNC; CCNNN; CNCNN; CNNCN; CNNNC; ........ ; NCCCC; CCCCC}

    Mientras que los posibles valores de X sern 0; 1; 2; 3; 4 y 5.

    a) Empezaremos por pensar qu probabilidad hay de que ninguna muestra est contaminada. Lo que debiera ocurrir para que el valor de x=0, es que cada una de las 5 muestras independientemente estn sin contaminar, lo que arrojara una probabilidad de:

    0,15*0,15*0,15*0,15*0,15= '" #0,0000759375

    Veamos que ,& ') u7

    b) Cul ser la probabilidad de encontrar una muestra contaminada? Lo que debiera ocurrir para que el valor de x=1, es que slo una de las 5 muestras est contaminada, mientras que 4 estarn sin contaminar, lo que arrojara una probabilidad de:

    0,85*0,15*0,15*0,15*0,15= '" ( '" U #0,0004303125

    Veamos que ,& ) r7u7 Pero no tenemos en cuenta que slo hemos tenido en cuenta que la primera muestra est contaminada. Debemos darle la posibilidad a que la segunda muestra lo est, as como la tercera, cuarta o quinta muestra. Para eso debiramos representar en la frmula a la cantidad de combinaciones en que se puede acomodar una muestra contaminada en grupos de 5 muestras. Para ello utilizaremos la frmula de combinatoria:

    Cuando se expresa: # 17&17)

    Se denota el nmero de combinaciones de x en un grupo de n, en el ejemplo: # & 5 ) &+) ( ++

    Lo que vimos cuando desarrollamos el espacio muestral, que una muestra contaminada se puede acomodar de 5 maneras diferentes en un grupo de 5 muestras.

    Volvamos entonces a la funcin de Probabilidad ahora completa:

  • Estadstica aplicada a las Ciencias Geolgicas

    z#ao& #r) r7u7 Donde: X: variable aleatoria de distribucin Binomial n: nmero de muestras (en realidad elementos de la muestra) p: probabilidad del xito en la poblacin q= 1-p: probabilidad de fracaso en la poblacin

    Parmetros, Esperanza y Varianza de la distribucin Binomial

    Parmetros: n y p E(X)= n p V(X)= n p q

    Para nuestro ejemplo (Ejemplo 5.5)

    E(X)= 5 * 0,85 = 4,25 V(X)= 5 * 0,85 * 0,15= 0,6375

    Dicho de otro modo el nmero esperado de muestras contaminadas en grupos de 5 muestras ser de 4, 24, con una varianza de 0,6375. La Figura 5.6 representa la funcin de probabilidad del Ejemplo 5.5.

    a

    b Figura 5.6a. Funcin de Probabilidad de la distribucin Binomial del Ejemplo 5.5 y b: Funcin de distribucin.

    c) Distribucin Poisson.

    Vamos a considerar dos formas diferentes de abordaje a esta distribucin (aunque hay ms de dos formas).

    I) Poisson como aproximacin a la Binomial

    Imaginemos que el evento que se est estudiando tiene una probabilidad de ocurrencia de 0,5 (p=0,5), si esto ocurre, con un n de 4 estamos frente a un valor esperado de 2. Dicho de otro modo con tomar una muestra de 4 tenemos altas chances de encontrar 2 unidades con

  • Estadstica aplicada a las Ciencias Geolgicas

    la caracterstica xito. Pero si el evento tiene una probabilidad de 0,1, debiramos tomar 10 para tener un valor esperado de 1. Del mismo modo, si la probabilidad del xito es de 0,01, el n debiera ser 100. As se va observando que a menor probabilidad del xito el operador deber hacer ms esfuerzo (aumentar el n). Dicho de otro modo, cuando p 0; n Y, de modo tal que n*p es constante. Se puede demostrar matemticamente que:

    1st r7u7 0##7

    Donde: = n * p

    II) Proceso de Poisson

    En estos casos la variable en estudio no es slo una aproximacin de la Binomial. Son ejemplos de esta aplicacin eventos que se miden en conteos y distribucin espacial de algunos eventos que siguen una distribucin Poisson. En estos casos la distribucin se refiere a una variable discreta donde como se ver en algunos prrafos la varianza crece a medida que se incrementa la esperanza. La funcin es la misma que se mencion anteriormente, pero aqu = nmero de casos por unidad de tiempo, espacio o superficie.

    Ejemplo 5.6. La probabilidad de ocurrencia de eventos ssmicos sigue una distribucin de Poisson, con probabilidades muy pequeas de ocurrencia en un determinado momento y con la necesidad de monitorear perodos largos de tiempo.

    Ejemplo 5.7. En un estudio paleontolgico sobre Ammonia tepida en estuarios se observ que la distribucin de esta especie en los sedimentos segua un proceso de Poisson con un de 3,2 individuos por m2.

    Parmetro, Esperanza y Varianza de la Distribucin de Poisson

    Parmetro: E(X)= V(X)=

    2) Distribuciones de variables aleatorias continuas

    a) Distribucin Uniforme. Del mismo modo que la distribucin Binaria es a las variables discretas, la Uniforme es a las continuas. Slo es una distribucin terica en la cual es difcil encontrar ejemplos de aplicacin.

    La variable aleatoria X posee un rango de valores: l m

    Todos los valores de X son igualmente posibles, por lo que:

  • Estadstica aplicada a las Ciencias Geolgicas

    k&) 9 para a < x < b

    F(x) 0 799 1

    para x < a para a < x < b para x > b

    Parmetros, Esperanza y varianza de la distribucin Uniforme

    Parmetros: a y b E(X)= &l m) ` V(X)= &m 5 l)2`

    Ejemplo 5.8. Una variable x posee distribucin Uniforme, con un rango de valores que van de 1 a 3. La figura 5.7 representa su funcin de densidad.

    Figura 5.7. Funcin de densidad de la variable Uniforme, donde a=1, b= 3)

    b) Distribucin Normal.

    A partir de numerosas observaciones sobre los errores de medicin, el matemtico Gauss observ que la distribucin de esos errores era simtrica y eran muy comunes los errores de poca magnitud, mientras que eran poco frecuentes los errores grandes. A partir de eso adapt una funcin desarrollada por De Moivre y la transform en una distribucin probabilstica agregndole un factor de correccin (es decir que sea una variable aleatoria donde se cumplen los axiomas de probabilidad, dicho de otro modo la probabilidad del espacio muestral debe ser 1). Ver Figuras 5.4 y 5.5b

    La funcin de densidad de esta distribucin es (Figura 5.4): k&) # ? 0A#&^)

    A?

    La forma de esta distribucin es la denominada campana de Gauss o campana de la distribucin normal

    Por su parte la funcin de distribucin est dada por (Figura 5.5b):

  • Estadstica aplicada a las Ciencias Geolgicas

    &) # | 2? 0A#&^)A?7t h# 5Y Z Z #Y

    Parmetros, Esperanza y Varianza de la distribucin Normal

    Parmetros:##?2 E(X)= V(X)= ?2

    Por lo tanto se dice que: z#& #?)

    Ejemplo 5.9.Supongamos que la variable aleatoria concentracin de Monxido de Carbono dentro de una empresa durante el perodo de mxima produccin sigue la distribucin Normal con Media 8 ppm y varianza 2 ppm2.

    De este modo la forma de la distribucin ser:

    Figura 5.8 Distribucin de la Concentracin de Monxido de Carbono dentro de una empresa

    Una de las preguntas que pueden surgir es qu probabilidad hay que los valores superen los 10 ppm?

    Como bien se vio anteriormente se debiera resolver la integral para calcular el espacio bajo la curva entre el valor 10 e infinito. Como bien se supone, resolver una integral tan compleja, cada vez que es necesario encontrar una probabilidad, es una tarea muy tediosa. Como se vio anteriormente en distribuciones de Poisson y Binomial podra estar tabuladas, pero recordemos que los parmetros de la distribucin normal (que son la media y la varianza) pueden tener infinitos valores diferentes, lo que implicara poseer una tabla para cada valor de y para cada de ?2.

  • Estadstica aplicada a las Ciencias Geolgicas

    Por esta primera razn se cre una tabla denominada Normal estandarizada o tipificada que tiene caractersticas muy particulares. Es una distribucin Normal pero que posee Esperanza cero (0) y Varianza uno (1), es decir es una variable llamada Z que: #&' #)

    Esta distribucin Z est tabulada y mediante una sencilla operacin se pueden transformar a todas las variables X en la variable Z, esta operacin se denomina Estandarizacin

    Estandarizacin

    Definimos como Estandarizacin a la operacin mediante la cual se transforma a una variable X: z#& #?) a una Z: #&' #)

    La frmula general de la Estandarizacin es: GlVolmn0#ln0lj-Vol 5 y.r0Vll#h0#nl#i l6l#qlhVlhl#h0#nl#ilVoll#h0#nl#i l

    Para este caso en particular (Ejemplo de una variable X) entonces: E(X)= y V(X)= ?2, la frmula es: 5 ?

    Observemos para el ejemplo 5.9 qu ocurre con la estandarizacin del valor 10: ' 5 "++

    a

  • Estadstica aplicada a las Ciencias Geolgicas

    b Figura 5.9a. Distribucin Normal y la ubicacin del valor x=10 y del mismo valor estandarizado z=1,414 (b)

    Ante la pregunta cul es la probabilidad de que x>10: P (x >10)= P (z >1,414)= 0,0787, (de la bsqueda de la tabla Normal estndar surge el valor de la probabilidad).

    Para diversos casos ver Figuras 5.10

    P (x < 6,586)= P (z < -1) = 0,1587 P (x < 10,8284)= P (z < 3) =0,9772

    a

    c

    b d

  • Estadstica aplicada a las Ciencias Geolgicas

    Figuras 5.10. Valores de x graficados en la distribucin de la variable x (a y c) y sus respectivas estandarizaciones (b y d).

    Ahora ntese que se puede visualizar que los valores z estn mostrando cuntos desvos antes o despus de la media se encuentra el valor de la variable, es decir si un valor est alejado o no de la media. El valor de x= 6,583 se encuentra ubicado un desvo antes d ela media, por eso su valor z es -1.

    Entonces los valores z estn relativizando a los valores de la variable. Una persona de 1,85 m es alta o baja? La respuesta debiera ser: depende. Si esa persona naci en Argentina, es una persona relativamente alta, para la media de este pas y su desvo esa persona tendr un valor z de aproximadamente 2. Pero si naci en Finlandia, es una persona promedio, pues su valor z es 0, ya que los finlandeses en promedio miden 1,85 m.

    Observando la superficie bajo la curva se constata que:

    P (-1 < z < 1) = 0,68; es decir que entre 1 desvo a la derecha y uno a la izquierda se encuentran aproximadamente el 68% central de los datos.

    P (-1,96 < z < 1,96)= 0,95; es decir que casi 2 desvos a la derecha y a la izquierda contienen aproximadamente el 95% central de los datos.

    P (-3 < z < 3)= 0,99; es decir que 3 desvos a la derecha y a la izquierda contienen algo ms del 99% central de los datos

    a. P(-1

  • Estadstica aplicada a las Ciencias Geolgicas

    b. P(-2

  • Estadstica aplicada a las Ciencias Geolgicas

    Captulo 6.

    Variables Aleatorias II.

    Distribucin de funciones de variables aleatorias

    Introduccin.

    En el captulo anterior se desarroll la distribucin de variables aleatorias. A su vez en el Captulo 2 se desarrollaron conceptos como la media, la varianza entendiendo que son funciones de variables aleatorias. Ahora vamos a ver de qu modo se distribuyen esas funciones de variables aleatorias.

    Si X es una variable aleatoria y H(X) es una funcin de sta, Y es una variable aleatoria de la funcin de X con: y&) y&&z))

    De tal modo que en caso discreto sera: y&) E &)r&){7

    Y en el caso continuo:

    y&) } &)#k&)h{7

    Y para ambos casos, tanto discretos como continuos: G&) y&2) 5 &y&))2

    Propiedades de Esperanza y varianza de funciones

    1) Sean X e Y dos variables aleatorias cualquiera (no necesariamente independientes), entonces E(X + Y)= E (X) + E (Y)

    2) Sean X e Y dos variables aleatorias cualquiera e independientes V(X + Y)= V (X) + V (Y)

    3) Sean X e Y dos variables aleatorias cualquiera y no independientes V(X + Y)= V (X) + V (Y) 2 Covarianza(X,Y)

    Distribucin del estadstico 2.

    Dadas Z1, Z2, Z3; .... Zn, n variables aleatorias independientes, con distribucin Normal estndar (#&' #)), entonces definimos a la distribucin Chi cuadrado como:

  • Estadstica aplicada a las Ciencias Geolgicas

    12 #

    Es decir una Chi cuadrado es la sumatoria de Normales estandarizadas al cuadrado.

    Funcin de densidad de la distribucin Chi Cuadrado

    k& 5 ) & )5 5052A &A ) , para 2 >0

    Parmetro, Esperanza y varianza de la Distribucin Chi cuadrado

    Parmetro: n-1 (grados de libertad) E (2 )= n-1 V (2 )= 2 n-1

    En las figuras 6.1 se observa que la distribucin Chi cuadrado es asimtrica a la derecha y que va hacindose ms simtrica a medida que se incrementan los grados de libertad

    a. Chi cuadrado con 3 grados de libertad

    b. Chi cuadrado con 8 grados de libertad

    Figura 6.1. Funcin de densidad de la distribucin Chi Cuadrado

    Distribucin del estadstico t.

    Dada Z una variable aleatoria con distribucin normal estndar (#&' #)), y dada Y una variable aleatoria con distribucin Chi cuadrado, entonces definimos a la distribucin t de Student como: j1 z 1

  • Estadstica aplicada a las Ciencias Geolgicas

    Es decir una distribucin t es una normal dividido la raz de una chi cuadrado dividida sus grados de libertad

    Funcin de densidad de la distribucin t

    k&j) &)A &)A #1 A1A , 5Y Z j Z Y

    Parmetro, Esperanza y varianza de la Distribucin t Parmetro: n-1 (grados de libertad) E (t)= 0 V (j)= 11=

    Tiene forma de campana, es simtrica, a medida que se incrementa el n, arroja probabilidades similares a la distribucin normal, cuando n>30 se dice que la t es significativamente similar a la normal

    Figura 6.2. Funciones de densidad de diferentes distribuciones t. A medida que se incrementa el n, aumenta su puntiagudez.

    Distribucin del estadstico F.

    Dada una variable aleatoria X con distribucin chi cuadrado y n-1 grados de libertad, dada otra variable aleatoria Y con distribucin chi cuadrado y m-1 grados de libertad, definimos a la variable aleatoria F (de Fisher) como: 18 z

    Es decir una F es un cociente entre dos variables aleatorias Chi cuadrado.

  • Estadstica aplicada a las Ciencias Geolgicas

    Funcin de densidad de la Variable F

    k&) A)A &A)A &A)A 81 A SAA

    A , F > 0

    Parmetro, Esperanza y varianza de la Distribucin F

    Parmetros: n-1 y m-1 (grados de libertad de ambas Chi cuadrado (X e Y) E (F)= 1 V ()= 2#1A&812)8&12)A&1U)

    F siempre es positiva, asimtrica a la derecha,

    Figura 6.3. Funcin de densidad de una variable F con 5 y 6 grados de libertad.

    Teorema Central del Lmite.

    Este teorema es muy importante en la prctica de la estadstica. Posee varios abordajes, pero lo simplificaremos a los fines didcticos:

    Dadas X1, X2, X3; .... Xn, n variables aleatorias independientes e idnticamente distribuidas, es decir todas con igual Esperanza () y con igual varianza (?2). La sumatoria de estas variables se distribuir con distribucin Normal, si el n es suficientemente grande, sin importar la distribucin original de aquellas.

  • Estadstica aplicada a las Ciencias Geolgicas

    La aplicacin ms importante de este teorema tiene que ver con la distribucin de la media muestral. Como se observa en la frmula de la media muestral:

    %$

    Entonces si X1.X2, Xn son variables aleatorias, la media es la sumatoria de variables aleatorias que multiplican a una constante:( ), que no cambia la distribucin.

    zC # E z $

  • Estadstica aplicada a las Ciencias Geolgicas

    Captulo 7.

    Distribuciones en el muestreo Introduccin.

    Si hacemos un pequeo repaso de lo que se ha visto hasta ahora podramos destacar que en los primeros captulos definimos estadstica, poblacin y muestra. Luego se describieron la distribucin de las variables, medidas de posicin y dispersin. Pasamos luego a los conceptos bsicos de probabilidad, de variables aleatorias con la distribucin de variables y la distribucin de funciones de variables. En este captulo uniremos muchos de esos conceptos y desarrollaremos las bases que constituyen el puntapi inicial para comprender la inferencia estadstica.

    Razones para utilizar muestras. Muestreo aleatorio.

    En el captulo 1 se desarrollaron los conceptos de muestreo desde el punto de vista de la capacidad de conseguir una muestra que represente a la poblacin. En captulos subsiguientes hemos visto que es necesario que la variable en estudio sea una variable aleatoria, producto de un experimento aleatorio y no cualquier variable tomada subjetivamente por el operador.

    Distribucin de los estimadores. Parmetros poblacionales.

    Si recordamos el Captulo 2, veremos que se describieron dos formas distintas de clculo de la media y de la varianza, dependiendo si estamos hablando de una poblacin o de una muestra:

    Poblacional Muestral Media

    Varianza ?2 &@)A B2 &C)A

    A partir de esto podremos definir a un parmetro como a la funcin tomada de la poblacin, mientras que llamaremos estimador a aquellas tomadas en la muestra. De este modo podremos decir que el parmetro poblacional es nico pues se obtiene del censo realizado en la totalidad de la poblacin, mientras que los estimadores muestrales pueden obtener tantos valores diferentes como la combinacin de unidades que puedan entrar en las distintas muestras. Es decir un estimador va a variar de muestra en muestra, por lo tanto y como se ha visto en el captulo anterior, es una variable aleatoria con una distribucin determinada.

    Distribucin de la media muestral.

    Sea z#& #?), qu distribucin tendr zC?

  • Estadstica aplicada a las Ciencias Geolgicas

    Como la media muestral es la sumatoria de variables aleatorias con distribucin normal, por lo tanto va a tener distribucin normal como resultado de la suma de normales. Qu pasara si las variables aleatorias no tienen distribucin normal? Si el n es suficientemente grande, por teorema central del lmite, la media muestral tendr distribucin normal.

    Cul ser la esperanza de la media muestral, sabiendo que la E (X)=? y&) y& 71 ) ; y&) y& 1) ; y&) 1 y& ) y&) 1 y&) ; y&) 1 ; y&) 1 ## y&)

    Entonces el valor esperado de , es el mismo de x: .

    Cul ser la varianza de la media muestral, sabiendo que la varianza de X es ?2? G&) G& 71 ) ; G&) G& 1); G&) 1A G& ) G&) 1A G&) ; G&) 1A ? ; G&) 1A ##? G&) 1 ? ; G&) ?1

    Entonces la varianza de , no es la misma varianza de x, es: ?1 , dicho de otro modo, a mayor cantidad de unidades que forman parte de la muestra, la media muestral vara cada vez menos. Entonces para resumir: zC# #?

    De este modo el desvo de la variable media muestral recibe el nombre de error estndar y est definido por:

    yy ? # ?

    Estandarizacin de la media muestral

    Si recordamos del captulo 6 la frmula general de la Estandarizacin, vimos que: GlVolmn0#ln0lj-Vol 5 y.r0Vll#h0#nl#i l6l#qlhVlhl#h0#nl#ilVoll#h0#nl#i l

  • Estadstica aplicada a las Ciencias Geolgicas

    Para este caso en particular entonces donde y&) y G&) ?1 , la frmula es: 5 ?1

    Distribucin de la diferencia de medias muestrales.

    Sea z# #? y zCCC# ## ?1, y sea z2# #? y z2CCC# ## ?1A

    La diferencia de medias muestrales se distribuir como:

    zCCC 5 z2CCC## 5 ## ? # ?2

    La estandarizacin de la diferencia de medias muestrales ser:

    &zCCCCC 5 z2CCC) 5 & 5 )?1 # ?1A

    Distribucin del estadstico &) . Distribucin de la varianza muestral.

    Sea z#& #?) y B2 la varianza muestral obtenida de una muestra de tamao n, sta se distribuye como una Chi cuadrado bajo estas condiciones:

    12 & 5 )B?2

    Distribucin del estadstico X . Distribucin de la media con varianza poblacionaldesconocida

    Sea z#& #?); zC la media muestral, B2 la varianza muestral, ambas obtenidas de una muestra de tamao n, la media muestral tendr distribucin t bajo estas condiciones:

    #j1 zC 5 I1

    Distribucin del estadstico

    Sea z# #? y z2# #? ;B2la varianza muestral de la poblacin 1, obtenida de una muestra de tamao n1; B22la varianza muestral de la poblacin 2 obtenida de una

  • Estadstica aplicada a las Ciencias Geolgicas

    muestra de tamao n2. El cociente entre las varianzas muestrales de las muestras 1 y 2 se distribuye como una F de Fisher bajo estas condiciones:

    &11A) # B2 ?2B22 ?22

  • Estadstica aplicada a las Ciencias Geolgicas

    Captulo 8.

    Estimacin.

    Introduccin.

    En captulos anteriores ya hemos visto la diferencia entre estimador y parmetro, entendiendo que un parmetro es una caracterstica que est tomada sobre la poblacin, mientras que el estimador es una caracterstica tomada a partir de la muestra. El parmetro es nico, mientras que el estimador difiere de muestra en muestra y posee una distribucin, ya que es una variable aleatoria. En este captulo ya entraremos de lleno a la parte de la Estadstica llamada Inferencial, ya que a partir de resultados particulares de una muestra inferimos sobre la poblacin.

    Estimacin puntual.

    Vamos a denominar en forma genrica a#como el parmetro y a como el estimador. El estimador es un estimador puntualde ya que lo estima en la recta de los nmeros reales y debemos comprender que no cualquier es un buen estimador de para ello tiene que cumplir ciertos requisitos:

    Propiedades de los buenos estimadores

    1) Insesgabilidad

    Sea un estimador de , se dice que es un estimador insesgado de si se cumple que: y ; entendemos por sesgo entonces a la diferencia entre la esperanza del estimador y el parmetro: Sesgo = 5 #y

    Ejemplo 8.1: Ya se ha visto en el captulo 7 que y&C) , por lo tanto C es un estimador insesgado de .

    Ejemplo 8.2: En este ejemplo demostraremos la razn por la cual la frmula de la varianza muestral es diferente del de la varianza poblacional. Recordemos que en el captulo 2 se vieron dos frmulas que son semejantes, pero difieren en el denominador: ?2 &@)A B2 &C)A Donde: ?2 : Varianza poblacional y B2: Varianza muestral.

  • Estadstica aplicada a las Ciencias Geolgicas

    El motivo por el cual estas frmulas son diferentes es el siguiente: si calculamos la esperanza de la varianza muestral slo dividiendo por n, se demuestra que el estimador es sesgado, mientras que si se corrige con n-1, el estimador es insesgado:

    Denominaremos BI2 al estimador sesgado de ?2:

    BI2 # & 5 C)$ $

    Entonces: y&BI2) # $ y& & 5 C)) ; recordemos la frmula de trabajo desarrollada en el Captulo 2, y la rescribiremos: BI2 & 5 C) ; de modo tal que: y&BI2) y& 5 C) ; y&BI2) y ) 5 y&C) y&BI2) E y& 5 y&C))

    Realizaremos un clculo auxiliar: GlV#&) # ?2 ##y& 5 F)2; ?2 y&2 5 F F2) ?2 y&2) 5 y&F) y&F2) ?2 y&2) 5 Fy&) y&F2) ?2 y&2) 5 FF F2 ?2 y&2) 5 F2 F2 ?2 y&2) 5 F2 ?2 F2 y&2)

    Retomando la demostracin anterior: y&BI2) & y&) 5 y&C)) , reemplazando e identificando si se trata de la variable o la media: y&BI2) E&F ?) 5 &FC ?C) y&BI2) E F E ? 5 FC ?C y&BI2) &F ? 5 FC ?C) y&BI2) F ? 5 FC ?C , como ya se explic en el Captulo 7, por Esperanza y varianza de la media:

    y&BI2) F ?5#F ? y&BI2) ? 5 ? ,

  • Estadstica aplicada a las Ciencias Geolgicas

    y&BI2) ?& 5 ) y&BI2) ?&5 ) ; por lo que se nota que el valor esperado de la varianza sesgada es menor a la varianza poblacional, siendo 11 el sesgo.

    Entonces para corregir el sesgo se debe multiplicar a la varianza sesgada por 11 de modo tal que:

    B2 & 5 C)$ $ ( # 5 & 5 C)$$ 5

    2) Consistencia

    Sea un estimador de , n el nmero de unidades de la muestra y k un nmero positivo cualquiera, se dice que es un estimador consistente de si se cumple que: , s &| 5 | Z )

    Dicho de otro modo, un estimador es consistente cuando a medida que se incrementa el n se hace ms similar al parmetro.

    Ejemplo 8.3: Supongamos que se desconoce el valor de la media poblacional de la concentracin de Cadmio en una mina. Se utiliza a como un estimador insesgado de , y a medida que se incrementa el n, cada vez a se hace ms parecido a . Cuando n pasa a ser N (es decir se realiz un censo, la diferencia entre y pasa a ser cero.

    3) Eficiencia

    Sean y 2, ambos estimadores insesgados y consistentes de , se dice que es un estimador eficiente con respecto a 2 si se cumple que: GlV#&) Z GlV#&2)

    Ejemplo 8.4: Est demostrado ya que la media muestral es un estimador insesgado de la media poblacional. Tambin bajo condiciones de distribucin normal se ha demostrado que la Mediana muestral es un estimador insesgado y consistente de la media poblacional. La pregunta es cul es mejor? La respuesta es: la media muestral, pero por qu?, porque ya demostramos que la varianza de la media muestral es HA1 , mientras que en trabajos estadsticos se ha demostrado que la varianza de la Mediana es " ( HA1 .Esto significa que a un n determinado, la media muestral vara menos que la mediana, por lo que es ms eficiente.

    Estimacin por intervalos.

  • Estadstica aplicada a las Ciencias Geolgicas

    Un estimador puntual no necesariamente tendr exactamente el mismo valor que el parmetro que est estimando. Es ms, lo ms probable es que no tenga ese valor. El valor que se obtenga de , estar ms o menos alejado de , dependiendo de la varianza del estimador y del n de la muestra. Al realizar una estimacin puntual no se tiene ningn indicio de cun alejado est el estimador del parmetro. Por esa razn suele ser necesaria realizar tambin una estimacin por intervalos, es decir plantear un intervalo que posea cierta probabilidad definida de antemano de contener el valor del parmetro. ,& Z Z B) 5 ,

    A continuacin vamos a ver varios casos desde los ms sencillos a los ms complejos:

    Caso 1) Intervalos para la media poblacional, con conocida.

    Parmetro a estimar: Estimador: C, y # #? ?2conocida. Definimos el estadstico como la funcin que relaciona al estimador con el parmetro, en este caso: 5 ?1 Definimos a una cierta probabilidad que llamaremos confianza (probabilidad del intervalo) y denotaremos como 1-, as una doble igualdad queda: ,& Z Z 2) 5 , para no confundir con los subndices de Z, los obviaremos. , Z 7? Z 5 , , ?1 Z 5 Z ?1 5 , , 5 ?1 Z Z ?1 5 ,

    Ntese que por comodidad y debido a que la distribucin Z es simtrica no se trabaj con el subndice de la probabilidad acumulada en los valores Z. Ntese tambin que de este intervalo planteado se obtiene un lmite inferior (LI) y uno superior (LS) que conforman un intervalo con una probabilidad 1- de contener al valor del parmetro . La construccin se realiza sumando y restndole al estimador puntual la confianza por su error estndar: #& 5 ) C 5 ( ?

  • Estadstica aplicada a las Ciencias Geolgicas

    B#& 5 ) C ( ?

    Desde el punto de vista prctico, una vez obtenidos los valores, ya deja de ser una probabilidad y pasa a denominarse confianza

    Caso 2) Intervalos para la media poblacional, con desconocida.

    Parmetro a estimar: Estimador: C ?2desconocida. Estadstico: j 7@ Confianza: 1-, El intervalo ser: ,&j Z j Z j2) 5 , para no confundir con los subndices de t, los obviaremos. , j Z 7B Z j 5 , , j B1 Z 5 Z j B1 5 , , 5 j B1 Z Z j B1 5 ,

    Entonces se obtiene un lmite inferior (LI) y uno superior (LS) que conforman un intervalo con una probabilidad 1- de contener al valor del parmetro #& 5 ) C 5 j ( B1 B#& 5 ) C j ( B1

    Caso 3) Intervalo para la diferencia de dos medias poblacionales, con y conocidas

    Parmetro a estimar: 5 2 Estimador: CCC 5 2CCC ?2y?22 conocidas Estadstico: &CCCCCACCCC)&@@A)A#AAA Confianza: 1-, El intervalo ser: ,& Z Z 2) 5 , para no confundir con los subndices de Z, los obviaremos.

  • Estadstica aplicada a las Ciencias Geolgicas

    , Z &CCCCCACCCC)&5)?# ?A Z

    5 ,

    , ?1 # ?1A Z &zCCCCC 5 z2CCC) 5 & 5 ) Z ?1 # ?1A 5 ,

    , &zCCCCC 5 z2CCC) 5 ?1 # ?1A Z 5 Z &zCCCCC 5 z2CCC) ?1 # ?1A 5 ,

    Los lmites del intervalo quedan: #& 5 ) &zCCCCC 5 z2CCC) 5 ( ?1 # ?1A B#& 5 ) &zCCCCC 5 z2CCC) ( ?1 # ?1A

    Caso 4) Intervalo para la diferencia de dos medias poblacionales, con y desconocidas, pero supuestas iguales y

    Parmetro a estimar: 5 2 Estimador: CCC 5 2CCC ?2y?22 desconocidasy 2 Estadstico: t &CCCCCACCCC)&5) B# BA Confianza: 1-, El intervalo ser: ,&j Z j Z j2) 5 , para no confundir con los subndices de t, los obviaremos. ,

    j Z &CCCCCACCCC)&5) B# BA Z j

    5 ,

    , jB1 # B1A Z &zCCCCC 5 z2CCC) 5 & 5 ) Z jB1 # B1A 5 ,

    , &zCCCCC 5 z2CCC) 5 jB1 # B1A Z 5 Z &zCCCCC 5 z2CCC) jB1 # B1A 5 ,

  • Estadstica aplicada a las Ciencias Geolgicas

    Los lmites del intervalo quedan: #& 5 ) &zCCCCC 5 z2)CCCCC 5 j ( B1 # B1A B#& 5 ) &zCCCCC 5 z2)CCCCC j ( B1 # B1A

    Caso 5) Intervalo para la diferencia de dos medias poblacionales, con y desconocidas, pero supuestas iguales y

    Parmetro a estimar: 5 2 Estimador: CCC 5 2CCC ?2y?22 desconocidas, pero supuestas iguales y 2, por lo que es necesario definir una varianza ponderada o varianza amalgamada (Bc2), que es una varianza promedio entre las dos varianzas muestrales, pero ponderadas por los grados de libertad de cada muestra:

    Bc2 & 5 ) ( B2 &2 5 ) ( B22& 2 5 )

    Estadstico: t &CCCCCACCCC)&5)&)(A&A)(AA&AA) ( # A) Confianza: 1-, El intervalo ser: ,&j Z j Z j2) 5 , para no confundir con los subndices de t, los obviaremos. , j Z &CCCCCACCCC)&5)IA # # A) Z j 5 , , jBc2# 1 # 1A) Z &zCCCCC 5 z2CCC) 5 & 5 ) Z jBc2# 1 # 1A) 5 , , &zCCCCC 5 z2)CCCCC 5 jBc2 1 # 1A Z 5 Z &zCCCCC 5 z2CCC) jBc2# 1 # 1A) 5 ,

    Los lmites del intervalo quedan: #& 5 ) &zCCCCC 5 z2CCC) 5 j ( &1)(IA&1A)(IAA&11A2) ( 1 # 1A) B#& 5 ) &zCCCCC 5 z2CCC) j ( &1)(IA&1A)(IAA&11A2) ( 1 # 1A)

  • Estadstica aplicada a las Ciencias Geolgicas

    Caso 6) Intervalo para la varianza poblacional.

    Parmetro a estimar: ?2 Estimador: BCCCC Estadstico: 12 &5)BHA

    Confianza: 1-, El intervalo ser: , Z Z 5 , para no confundir con los subndices de Chi, los obviaremos. , Z &1)IA? Z 5 , , Z &1)IA? Z 5 , , &1)IA Z #? Z &1)IA 5 ,

    , &1)IA ? &1)IA 5 ,

    Los lmites del intervalo quedan: #& 5 ) &1)IA5` B#& 5 ) # &1)IA`

    Caso 7) Intervalo para el cociente de dos varianzas poblacionales.

    Parmetro a estimar: HAHAA Estimador: IAIAA Estadstico: &11A) # IA ?AIAA ?AA

    Confianza: 1-,

    El intervalo ser: ,& Z Z 2) 5 , , Z IA ?AIAA ?AA Z 5 ,

  • Estadstica aplicada a las Ciencias Geolgicas

    , IAIAA Z ?A?AA Z IAIAA 5 ,

    Los lmites del intervalo quedan: #& 5 ) &55) IAIAA B#& 5 ) # &555) IAIAA

    Clculo de tamao de la muestra.

    En el captulo se explic que para obtener muestras representativas de la poblacin stas deban ser tomadas de un modo probabilstico, es decir se explic el cmo. Aqu se comentar el cunto. Cuntas unidades debemos tener para que la muestra represente la variabilidad de la poblacin. Est claro que si todas las unidades fuesen exactamente iguales slo debiramos tomar una unidad o elemento. A mayor variabilidad, mayor nmero de unidades sern necesarias.

    1) Variables cuantitativas normales

    A partir del Estadstico: j 7B Y despejando n, se puede obtener: 81 AMA

    Donde: M2: varianza muestral t: valor del estadstico t para n-1 y 1-. e: error mximo que se est dispuesto a cometer. Se expresa en la unidad de la variable, por ejemplo un error mximo del 10 % corresponde al valor e= 0.1* C

    Ejemplo 8.5. Se desea estimar a la media poblacional del contenido de sales minerales (en %) del agua en el mar en una zona cercana a