CURSO GEOESTADISTICA

Embed Size (px)

Citation preview

  • 5/28/2018 CURSO GEOESTADISTICA

    1/49

    GEOESTADISTICA

    Teora y Prctica

    Aplicacin en la Caracterizacin deYacimientos

    Bogot, Febrero 2010

  • 5/28/2018 CURSO GEOESTADISTICA

    2/49

    2

    GEOESTADISTICAAplicacin en la Caracterizacin

    de Yacimientos

    Ramn Giraldo H.

    PhD Estadstica

    Universidad Nacional de Colombia

  • 5/28/2018 CURSO GEOESTADISTICA

    3/49

    3

    Contenido

    Introduccin

    1. Anlisis Explorator io de Datos Espaciales

    1.1 Datos Espaciales1.2 Tipos de Variables y Escalas de Medida1.3 Medidas Descriptivas1.4 Grficos Exploratorios

    2.Definiciones Bsicas de Geoestadstica2.1. Definicin y Origen de la Geoestadstica2.2. Variable Regionalizada2.3. Estacionariedad Fuerte e Intrnseca2.4. Isotropa2.5. Ejemplo.

    3.Dependencia o Correlacin Espacial3.1. Funciones de Correlacin Espacial

    3.1.1. Variograma y Semivariograma3.1.2. Covariograma3.1.3. Correlograma3.1.4. Semivariograma experimental

    3.2. Modelos Tericos de Semivarianza3.3. Ejemplo.

  • 5/28/2018 CURSO GEOESTADISTICA

    4/49

    4

    4. Prediccin Espacial

    4.1. Prediccin Espacial Optima4.2. Mtodos Kriging

    4.2.

    Kriging Ordinario4.3. Kriging Indicador4.4. Cokriging Ordinario4.5. Ejemplo.

    5. Apndice

    5.1 lgebra de Matrices5.2. Conceptos Estadsticos Bsicos5.2 Regresin y Mnimos Cuadrados.

    6. Apl icaciones a Datos Reales

    6.1. Aplicacin en ssmica6.2 Aplicacin con informacin de pozos

    7. Bibl iografa.

  • 5/28/2018 CURSO GEOESTADISTICA

    5/49

    5

    Introduccin

    La necesidad de acudir a herramientas estadsticas para el anlisis de datos en todaslas reas del conocimiento, ha hecho que aparezcan con el correr de los aos nuevasmetodologas que, no obstante se centran en fundamentos probabilsticos comunes, sonespecficas para cada una de las diversas disciplinas del saber. Algunos ejemplos son, entreotros, minera, geologa y geofsica. La gran relevancia que tiene a nivel mundial el temade la caracterizacin de reservorios ha hecho que los profesionales en estadstica encaminenesfuerzos en el desarrollo de nuevas tcnicas apropiadas para el anlisis de informacinenmarcada dentro de este contexto. Dentro de este los mtodos geoestadsticos juegan unpapel preponderante.

    La geoestadstica permite cuantificar la incertidumbre y especificar la forma en questa vara en el espacio-tiempo. Uno de sus campos de aplicacin es la caracterizacin de

    reservorios, que involucra un conjunto de mtodos probabilsticos, cuyo objetivo es definirel modelo ms probable de un reservorio, con sus formas de cuerpos, heterogeneidadespetrofsicas, geometra estructural y caracterizacin paleoambiental. Los yacimientosposeen pozos irregularmente distribuidos en funcin de cmo haya sido la historia de sudesarrollo. Cuando una empresa decide llevar adelante una tarea de perforacin necesitaconocer qu chances va a tener de encontrar crudo y eso implica minimizar las incertezasque se desprenden de la falta de homogeneidad de los cuerpos. De esta forma, lasposibilidades de hallar el recurso buscado aumentan o disminuyen segn cules sean lascondiciones de porosidad y permeabilidad, entre otros factores. Ah es donde entra lageoestadstica, por ser una herramienta que permite predecir en un punto qu valoraproximado se va a tener de una determinada propiedad, y qu incertidumbre asociada se

    tiene a esa predicin, que combinada con la geofsica de reservorio permite integrar lainformacin de pozos y el dato ssmico a fin de determinar nuevas locaciones para drenarlas zonas saturadas.

    En el documento se presentan las definiciones y los conceptos tericos y en eldesarrollo del curso se harn aplicaciones con datos geofsicos reales (captulo 6 noincluido en el docuemnto). Para el seguimiento completo de la teora descrita se requieretener conocimientos bsicos de lgebra de matrices y de estadstica matemtica. Sinembargo aquellas personas que estn poco familiarizadas con estos temas, podrn obviar lalectura de algunas secciones en las que se hacen desarrollos tericos y centrar su atencinen la filosofa de los mtodos presentados y en las aplicaciones mostradas en cada uno delos captulos del documento. Un resumen no exhaustivo de conceptos de lgebra lineal y

    de estadstica es hecho al final en el apndice. Aunque en el texto se cubren a manera deintroduccin diversos temas geoestadsticos y se hacen aplicaciones de mtodos recientes,es necesario acudir a la lectura de artculos cientficos y textos formales para lograr unbuen dominio de esta metodologa.

  • 5/28/2018 CURSO GEOESTADISTICA

    6/49

    6

    Capitulo Uno

    Anlisis Explorator io de Datos Espaciales

    1.1.Datos Espaciales.Las mediciones de las caractersticas de inters en un estudio regionalizado tienenimplcitamente asociadas las coordenadas geogrficas de los sitios en donde estas fuerontomadas. Generalmente cuando el rea de estudio es considerablemente grande se usa ungeoposicionador para establecer dichas coordenadas. En otros casos es suficiente con hacerasignaciones segn planos cartesianos. Un esquema general de datos georreferenciados(datos espaciales) es el siguiente:

    Sitio LatitudNorte

    LongitudEste

    Var. 1 Var. 2 . . . Var. p

    1 X11 X12 . . . X1p

    2 X21 X22 . . . X2p

    3 X31 X32 . . . X3p

    4 X41 X42 . . . X4p

    . . . . . . .

    . . . . . . .

    . . . . . . .

    n Xn1 Xn2 . . . Xnp

    En la tabla anterior n es el nmero de sitios muestreados y p el de variables medidas encada uno de ellos. Cada Xij corresponde a una medida de una variable (variable j) quepuede ser numrica (discreta o continua) o categrica (ordinal o nominal). En general lametodologa geoestadstica trabaja con datos correspondientes a variables numricas.Algunas de las variables pueden estar ms intensamente muestreadas que las otras (Xijfaltantes). Las coordenadas pueden ser planas, geogrficas (grados, minutos y segundos) ocartesianas. Sin embargo la posible utilizacin de unas u otras depende del softwareempleado para los anlisis.

    1.2. Tipos de Variables y Escalas de Medida

    Existen distintas categoras para las variables y se han propuesto numerosas clasificacionespara expresar su variabilidad. Las dos ms comunes son: 1) De doble estado o binar ias,que son aquellos que pueden tomar slo dos valores, p.ej. los datos de presencia o ausenciade un mineral. 2) De Mul tiestado, que son aquellas en que las medidas pueden tomar tres o

  • 5/28/2018 CURSO GEOESTADISTICA

    7/49

    7

    ms valores, stas pueden ser Cual itati vas o Cuant itati vas, y presentan diferentes escalasde medida (Digby & Kempton, 1992).

    1.2.1 Variables Cualitativas

    Son aquellos que expresan cualidades no mensurables y se dividen en cualitativas sin

    secuencia lgica y cualitativas con secuencia lgica dependiendo de su escala de medida.Las posibles escalas de medida de las variables cualitativas son:

    a) Escala Nominal: Se presenta cuando las observaciones de la variable no pueden serordenadas en una secuencia de grados del atributo. Esta es la escala ms simple demedida, p. ej. pocas climticas (seco, lluvioso), sitios geogrficos, etc.

    b) Escala Ordinal: Se presenta cuando las mediciones pueden ser ordenadas de menor amayor o viceversa, pero las distancias entre los elementos ordenados no tienen ningnsentido fsico y si lo tienen, no son iguales a todo lo largo de la escala, p.ej. tipo degrano (arcilla, limo), dureza de un mineral .

    1.2.2. Variables Cuantitativas

    Expresan magnitudes o cantidades, que son el resultado de mediciones de algninstrumento, conteos de eventos o de operaciones matemticas simples. Estos pueden ser:

    1.2.2.1. Variables Discretas: Son aquellas que representan cantidades expresables slopor un nmero finito de valores en la escala real, generalmente las que slo pueden tomarvalores enteros, sin fracciones.

    1.2.2.2. Variables Continuas: Son aquellas en los que existe potencialmente un nmeroinfinito de valores entre dos puntos de la escala. Pueden ser datos enteros o fraccionarios,p. ej. Caractersticas fsicas o qumicas.

    1.2.2.3. Variables Derivadas: Son aquellas en que los datos son generados a partir declculos simples entre medidas de variables cuantitativas o cualitativas, p. ej. ndices, tasas,proporciones, etc.

    Las variables continuas tienen dos posibles escalas de medida, estas son :

    a) Escala de Intervalo: Es una escala ordinal en donde las distancias tienen un sentidofsico igual a todo lo largo de la escala, pero el punto de valor cero es fijadoarbitrariamente, p. ej. el tiempo (el tiempo inicial (t0) puede ser cualquier momento), laaltitud (cero se refiere al nivel del mar) y la temperatura en grados Celsius en la que por

    ejemplo el valor de cero grados no indica ausencia de calor o de agitacin de molculas ypor consiguiente no es posible afirmar que un cuerpo de 20 grados tiene el doble de calorque uno de 10.b) Escala de Razn: Es una escala de intervalo en la que no hay que fijar un ceroarbitrario, entonces el resultado de dividir o multiplicar un valor de la escala por otro tieneun sentido fsico, p. ej. Las variables qumicas.

  • 5/28/2018 CURSO GEOESTADISTICA

    8/49

    8

    1.3.Medidas Descriptivas.

    Siempre que se va a realizar un anlisis estadstico, es conveniente realizar un estudioexploratorio de los datos. Esto implica establecer si los datos estn muy agrupados omuy dispersos, cual es el punto representativo de la agrupacin y si hayobservaciones muy alejadas de las restantes. Estos aspectos se tratan a continuacin:

    1.3.1. Medidas de Localizacin

    Estas medidas indican alrededor de que valor se agrupan los datos, generando valoresrepresentativos de las observaciones (tabla 1).

    a) Media: Es el promedio aritmtico de las observaciones y una medida representativacuando no hay valores muy extremos en los datos, porque en esos casos es afectada porellos, corrindose hacia un lado de la distribucin.

    b) Mediana: Se define como el valor de la variable que supera el 50 % de lasobservaciones y es superado por el restante 50 %. Esta medida tiene en cuenta slo elorden de los datos ms no su magnitud, por esto no se deja afectar por los valoresatpicos (extremos) y puede ser ms representativa que la media en muchos casos.

    c) Cuantilas: Particionan en intervalos de igual amplitud la distribucin. Particularmentelos cuartiles (Qi , i=1,2,3) son de gran utilidad, como se ver ms adelante, en ladeteccin de observaciones atpicas

    Tabla 1.Medidas de localizacin con sus respectivos clculos muestrales

    Medida Clculo.

    Media

    n

    x

    x

    n

    1i

    i

    Mediana Estadsticas de orden:

    x x x x n( ) ( ) ( ) ( )...0 1 2

    Si n impar 2/)1n(xx~

    Si n par2

    xxx~

    )12/n(2/n

    Cuantilas(Cuartiles, Deciles,etc)

    Similar a la mediana pero se dividesobre 4 en el caso de cuartles o sobre10 en los Deciles.

  • 5/28/2018 CURSO GEOESTADISTICA

    9/49

    9

    1.3.2. Medidas de Variabilidad

    Indican cuanto se alejan o dispersan los datos con respecto a las medidas de localizacin oel grado de homogeneidad de los mismos (tabla 2).

    a) Varianza: Es una medida de la dispersin en la distribucin de probabilidad de unavariable aleatoria, expresada en unidades cuadradas.

    b) Desviacin Estndar: Indica en promedio cunto se alejan las observaciones de lamedia aritmtica; est dada en las mismas unidades de la variable, a diferencia de lavarianza.

    c) Coeficiente de Variacin (C.V.): Es una medida relativa de variabilidad y, engeneral, se acepta que un conjunto de datos es relativamente homogneo si el C.V. esmenor del 30%, aunque algunos autores refutan este concepto.

    d) Rango y Rango Intercuartlico: Representan el recorrido de la variable y la distanciaentre los cuartles, respectivamente. Son tiles cuando se comparan dos o msdistribuciones.

    Tabla 2.Medidas de variabilidad con sus respectivos clculos muestrales

    Medida Clculo

    Varianza

    S

    x X

    n

    i

    i

    n

    2

    2

    1

    1

    Desviacin EstndarS S 2

    Error Estndar

    n

    SE.E

    2

    Coeficiente de Variacin

    x~S

    Rango Xmx- Xmin

    Rango entre Cuartles Q Q3 1

    1.4. Grficos Exploratorios

    A continuacin se presentan algunos grficos que resumen la informacin de un conjuntode datos, indicando aparte de las medidas de localizacin y variabilidad, aspectosimportantes como la deteccin de observaciones atpicas.

  • 5/28/2018 CURSO GEOESTADISTICA

    10/49

    10

    a). Histogramas

    Un histograma es un conjunto de rectngulos, cada uno de los cuales representa unintervalo de agrupacin o clase. La base de cada rectngulo es igual a la amplitud delintervalo, y la altura es proporcional a la frecuencia (absoluta o relativa) de cada clase.

    Para obtener una buena representacin de las frecuencias de las observaciones, serecomienda calcular 2 n como el nmero aproximado de intervalos, sin embargo se debetener en cuenta que esto depende de la variable estudiada y no es una regla que se debeseguir siempre (Pea, 1987).

    b). Diagrama de Caja

    Este diagrama resume un conjunto de observaciones univariadas, suministrando un anlisisexploratorio de los datos, til para estudiar simetra, supuestos distribucionales y detectarobservaciones atpicas (Hoaglin

    et al., 1983).

    El grfico (Fig. 1) divide los datos en cuatro reas de igual frecuencia. La caja centralencierra el 50%, tomando la lnea vertical como la mediana. La lnea horizontal va desde elprimer cuartl hasta menos 1.5 veces el rango intercuartlico del primer cuartl, y desde eltercer cuartl hasta mas 1.5 veces el rango intercuartlico del tercer cuartl. Los puntos queestn por fuera de la lnea horizontal se consideran puntos afuera y en algunos casos cuandoestn a ms de tres veces del rango entre cuartiles se consideran como puntos muy afuera omuy alejados

    Q1- 1.5R.I Q1 Me Q3 Q3+ 1.5 R.I

    Figura 1. Representacin de un diagrama de caja.

    c). Diagrama de Tallos y Hojas

    El diagrama de tallos y hojas de Tukey es una forma semi-grfica de presentar lainformacin para variables cuantitativas, especialmente cuando el nmero total de datos espequeo (menor que 50). Los principios para construirlo son:

    Redondear los datos a dos o tres cifras significativas, expresndolos en unidadesconvenientes.

    Disponerlos en una tabla con dos columnas separadas con una lnea como sigue: Para datos con dos dgitos, escribir a la izquierda de la lnea los dgitos de las decenas,

    formando as el tallo, y a la derecha las unidades que sern las ramas. Por ejemplo 87 seescribir 87.

  • 5/28/2018 CURSO GEOESTADISTICA

    11/49

    11

    Para datos con tres dgitos el tallo estar formado por los dgitos de las decenas ycentenas, que se escribirn a la izquierda, separados de las unidades. Por ejemplo, 127ser 127.

    Cada tallo define una clase y slo se escribe una vez. El nmero de hojas representa lafrecuencia de dicha clase (Figura a) de abajo). En algunas ocasiones, hay muchas

    observaciones en cada fila y conviene abrir cada tallo en dos, y en algunas otras esposible abrir cada fila en 5 clases (Figura b) de abajo). Las observaciones afuera y muyafuera del diagrama de caja son indicadas en el diagrama de caja con las expresionesbajo y alto (ver figura 4, seccin 1.6).

    a) 11 34 b) 11* 001122333344412 24577 11 5556777778888899913 345 12* 111233334414 27 12 5556778915 2 13* 00123

    16 1 13 667814* 22

    d). Grfico de Datos Clasificados en Intervalos

    Una clasificacin de los datos en intervalos de clase, definidos por smbolos, dentro delrea de estudio, es til en la identificacin de posibles tendencias en los valores de lavariable, de zonas con mayor o menor magnitud o de observaciones extremas (ver figura 5en la seccin 1.6)

    1.5. Relacin entre variables

    a). Covarianza y Correlacin.

    La covarianza mide la variabilidad conjunta de dos variables. Es una extensin de lavarianza al caso bidimensional:

    n

    )YY)(XX(

    )Y,X(COV

    n

    1i

    ii

    El coeficiente de correlacin mide el grado de asociacin lineal que existe entre dos

    variables X y Y. Se calcula mediante:

    n

    1i

    2i

    n

    1i

    2i

    n

    1i

    ii

    yx)yy()xx(

    )yy)(xx(

    SS

    )Y,X(COVr

  • 5/28/2018 CURSO GEOESTADISTICA

    12/49

    12

    El coeficiente de correlacin es un nmero en el intervalo [-1, 1]. Un valor de r = -1indica una relacin lineal negativa perfecta entre X y Y , mientras que una valor de r = 1sealar una asociacin positiva perfecta de X y Y. Si r = 0, entonces se concluir que noexiste ninguna relacin lineal entre X y Y.

    b) Grficos de Dispersin.Son muy tiles tanto para la deteccin de relaciones entre las variables como para laidentificacin de tendencias en el valor promedio de la variable en la regin (relacin entrela variable medida y las coordenadas geogrficas). Un supuesto fundamental en el anlisisgeoestadstico es que el fenmeno sea estacionario, para lo cual, entre otros aspectos, elnivel promedio de la variable de estudio debe ser constante en todos los puntos del rea deestudio. Una deteccin de tendencia en el grfico de dispersin puede ser una muestra deque no se satisface dicho supuesto. El grfico se construye tomando como eje de las abcisasla variable que representa la coordenada geogrfica (latitud o longitud) y en el eje de lasordenadas la variable cuantitativa de estudio. La observacin de la nube de puntos

    resultante o incluso el ajuste de una lnea de regresin (Fox, 1984), permiten establecer siexiste dicha tendencia.

  • 5/28/2018 CURSO GEOESTADISTICA

    13/49

    13

    Capitulo Dos

    Definiciones Bsicas de Geoestadstica

    2.1. Origen y Definicin de Geoestadstica

    Los orgenes de la geoestadstica se encuentran en el campo de la minera. Comoantecedentes suelen mencionarse trabajos de Sichel (1947; 1949) (citado en Samper &Carrera, 1990) y Krige (1951). El primero observ la naturaleza asimtrica de ladistribucin del contenido de oro en las minas surafricanas, la equipar a una distribucinde probabilidad lognormal y desarroll las frmulas bsicas para esta distribucin. Ellopermiti una primera estimacin de las reservas, pero bajo el supuesto de que lasmediciones eran independientes, en clara contradiccin con la experiencia de que existenzonas ms ricas que otras. Una primera aproximacin a la solucin de este problema fue

    dada por gelogo G. Krige que propuso una variante del mtodo de medias mviles, el cualpuede considerarse como el equivalente al krigeado simple que, como se ver ms adelante,es uno de los mtodos de estimacin lineal en el espacio con mayores cualidades tericas.La formulacin rigurosa y la solucin al problema de estimacin vino de la mano deMatheron (1962). En los aos sucesivos la teora se fue depurando, ampliando su campo devalidez y reduciendo las hiptesis necesarias (Samper & Carrera, 1990).

    De la minera las tcnicas geoestadsticas, se han "exportado" a muchos otros campos comohidrologa, fsica del suelo, ciencias de la tierra y ms recientemente al monitoreoambiental y al procesamiento de imgenes de satlite.

    La geoestadstica es una rama de la estadstica que trata fenmenos espaciales (Journel &

    Huijbregts, 1978). Su inters primordial es la estimacin, prediccin y simulacin de dichosfenmenos (Myers, 1987). Esta herramienta ofrece una manera de describir la continuidadespacial, que es un rasgo distintivo esencial de muchos fenmenos naturales, y proporcionaadaptaciones de las tcnicas clsicas de regresin para tomar ventajas de esta continuidad(Isaaks & Srivastava, 1989). Petitgas (1996), la define como una aplicacin de la teora deprobabilidades a la estimacin estadstica de variables espaciales.

    La modelacin espacial es la adicin ms reciente a la literatura estadstica. Geologa,ciencias del suelo, agronoma, ingeniera forestal, astronoma, o cualquier disciplina quetrabaja con datos colectados en diferentes locaciones espaciales necesita desarrollarmodelos que indiquen cuando hay dependencia entre las medidas de los diferentes sitios.Usualmente dicha modelacin concierne con la prediccin espacial, pero hay otras reas

    importantes como la simulacin, el diseo muestral y los modelos en enmallados (lattices)(Cressie, 1989).

    Cuando el objetivo es hacer prediccin, la geoestadstica opera bsicamente en dos etapas.La primera es el anlisis estructural, en la cual se describe la correlacin entre puntos en elespacio. En la segunda fase se hace prediccin en sitios de la regin no muestreados pormedio de la tcnica kriging (capitulo 4). Este es un proceso que calcula un promedioponderado de las observaciones muestrales. Los pesos asignados a los valores muestrales

  • 5/28/2018 CURSO GEOESTADISTICA

    14/49

    14

    son apropiadamente determinados por la estructura espacial de correlacin establecida en laprimera etapa y por la configuracin de muestreo (Petitgas, 1996).

    Los fundamentos bsicos de estas etapas son presentados a continuacin. Se realizatambin una revisin del caso en que se miden simultneamente varias variables en cadasitio de muestreo y se desea hacer prediccin de una de ellas con base en informacin de las

    otras. En este caso la tcnica de prediccin es conocida como cokriging (capitulo 4).Algunos temas especiales como el diseo de una red de muestreo ptima, en trminos devarianza de prediccin y costos, y el anlisis de componentes principales regionalizadotambin sern estudiados (capitulo 5).

    2.2. Variable Regionalizada.

    Una variable distribuida en el espacio de forma que presente una estructura de correlacin,se dice que es una variable regionalizada. De manera ms formal se puede definir como unproceso estocstico con dominio contenido en un espacio euclidiano m-dimensional Rm,

    {Z(x) : x D Rm

    }. Si m = 2, Z(x) puede asociarse a una variable medida en un punto xdel plano (Daz-Francs, 1993). En trminos prcticos Z(x) puede verse como una medicinde una variable aleatoria (por ejemplo concentracin de un contaminante) en un punto x deuna regin de estudio.

    Recurdese que un proceso estocstico es una coleccin de variables aleatorias indexadas;esto es, para cada xen el conjunto de ndices D, Z(x) es una variable aleatoria. En el casode que las mediciones sean hechas en una superficie (slo se tengan longitud y latitud comocoordenadas), entonces Z(x) puede interpretarse como la variable aleatoria asociada a esepunto del plano (x representa las coordenadas, planas o geogrficas, y Z la medicin de lavariable en cada una de ellas). Estas variables aleatorias pueden representar la magnitud deuna variable ambiental medida en un conjunto de coordenadas de la regin de estudio.

    2.3. Estacionariedad

    2.3.1. Estacionariedad de Segundo OrdenSea {Z(x) : x D Rm} una variable regionalizada definida en un dominio D contenidoen Rm(generalmente una variable medida en la superficie de una regin) se dice que Z(x)es estacionario desegundo ordensi cumple (Daz-Francs, 1993):

    a. E [ Z(x)] = k, kR, x D Rm.

    El valor esperado de la variable aleatoria es finito y es una constante para todo puntoen el dominio (el valor promedio es igual en todo punto de la regin).

    b. COV [ Z(x) , Z(x+h)] = C(h) <

    Z (x) tiene covarianza finita y es una funcin nica del vector de separacin h entrecada pareja de puntos.

  • 5/28/2018 CURSO GEOESTADISTICA

    15/49

    15

    Obviando la direccin de variacin, el supuesto de estacionariedad en la media puede serestudiado a travs de un grfico del promedio en funcin de la distancia (Fig. 5).

    16

    17

    18

    19

    0 10000 20000 30000Distancia (m)

    ValorPromedio.

    Figura 5. Grfico de dispersin de valores promedios de una variable simulada en funcinde la distancia entre puntos de muestreo

    La figura anterior fue elaborada con base en simulacin. Se generaron datos de una variablehipottica con valores uniformemente distribuidos entre 16 y 19. Luego estos fueronasignados aleatoriamente a las coordenadas dadas en la matriz del anexo. En el proceso deelaboracin de la figura se tomaron vecindades, se calcul la media y la distanciaeuclidiana promedio entre las correspondientes coordenadas dentro de la vecindad. Elgrfico corresponde a la nube de puntos de las dos variables. Se puede establecer que elvalor promedio est fluctuando alrededor de un valor entre 17 y 18 y que por consiguientela media no tiene ninguna tendencia de cambio en funcin de la distancia existente entre lospuntos de muestreo.

    2.3.2. Estacionariedad DbilGeneralmente se trabaja slo con la hiptesis que pide que los incrementos [Z(x+h)- Z(x)]sean estacionarios, esto es (Clark, 1979):

    a. Z(x) tiene esperanza finita para todo punto en el dominio. Lo que implica que laesperanza de los incrementos es cero.

    E [ Z(x+h) - Z(x)] = 0

    b. Para cualquier vector h, la varianza del incremento est definida y es una funcin nicade la distancia.

    V [ Z(x+h) - Z(x)] = 2 (h)

  • 5/28/2018 CURSO GEOESTADISTICA

    16/49

    16

    El concepto de estacionariedad es muy til en la modelacin de series temporales (Box &Jenkins, 1976). En este contexto es ms fcil la identificacin, puesto que slo hay unadireccin de variacin (el tiempo). En el campo espacial existen mltiples direcciones y porlo tanto se debe asumir que en todas el fenmeno es estacionario. Cuando el nivel promediode la variable no es el mismo en todas las direcciones o cuando la covarianza o correlacin

    dependan del sentido en que se determinan, no habr estacionariedad. Si la correlacinentre los datos no depende de la direccin en la que esta se calcule se dice que el fenmenoes isotrpico, en caso contrario se hablar de anisotropa. En Journel & Huijbregts(1978), se trata el caso de la anisotropa y se proponen algunas soluciones. Cressie(1986)discute cual debe ser el tratamiento en caso de que la media no sea constante.

  • 5/28/2018 CURSO GEOESTADISTICA

    17/49

    17

    Capitulo Tres

    Dependencia o Correlacin Espacial

    3.1. Funciones de Correlacin EspacialLa primera etapa en el desarrollo de un anlisis geoestadstico es la determinacin de ladependencia espacial entre los datos medidos de una variable. Esta etapa es tambinconocida como anlisis estructural. Para llevarla a cabo, con base en la informacinmuestral, se usan tres funciones: El semivariograma, el covariograma y el correlogramaexperimental. A continuacin se hace una revisin de los conceptos asociados a cada unade ellas y se describen sus bondades y limitaciones.

    3.1.1. Variograma y Semivariograma.

    Representa la varianza de los incrementos de la variable regionalizada y se denota por2(h). De acuerdo con lo anterior utilizando la definicin terica de la varianza en trminosdel valor esperado de una variable aleatoria, tenemos:

    2

    2

    0

    2

    2

    ( ) ( ) ( )

    ( ) ( ) ( ) ( )

    ( ) ( ) .

    h V Z x h Z x

    E Z x h Z x E Z x h Z x

    E Z x h Z x

    La mitad del variograma ( (h)), se conoce como la funcin de semivarianza y caracterizalas propiedades de dependencia espacial del proceso. Dada una realizacin del fenmeno,la funcin de semivarianza es estimada por medio del semivariograma experimental, que secalcula mediante (Wackernagel, 1995):

    ( )

    ( ) ( )

    ( )h

    Z x h Z x

    n h

    2

    2

    donde Z (x) es el valor de la variable en un sitio x, Z (x+h) es otro valor muestral separadodel anterior por una distancia h y n(h) es el nmero de parejas que se encuentran separadaspor dicha distancia.

  • 5/28/2018 CURSO GEOESTADISTICA

    18/49

    18

    3.1.2. Covariograma y Correlograma.

    De acuerdo con la frmula de la covarianza dada en el capitulo uno, la funcin decovarianza espacial entre parejas de observaciones que se encuentran a una distancia h estdada, con base en los datos muestrales, por:

    COV Z x h Z x

    Z x h m Z x m

    n

    Z x h Z x

    nm C h

    i

    n

    i

    n

    ( ), ( )

    ( ( ) )( ( ) )

    ( ) ( )

    ( )

    1

    1 2

    donde m, si el proceso es estacionario de segundo orden, representa el valor promedio entodo punto de la regin de estudio y n es el nmero de parejas de puntos que se encuentran

    a una distancia h.De otro lado para determinar la frmula del correlograma, dado que se conoce elcovariograma, slo faltara establecer las desviaciones estndar en cada punto del dominio.Sin embargo, si el fenmeno es estacionario, stas al igual que la media son constantes ypor consiguiente:

    r h COV Z x h Z x

    S S

    C h

    S

    C h

    V Z x

    C h

    Cx h x x

    ( ) ( ( ), ( )) ( ) ( )

    ( ( ) )

    ( )

    ( )

    2 0

    Cualquiera de las tres funciones de dependencia espacial mencionadas, es decir

    semivariograma, covariograma o correlograma, puede ser usada en la determinacin de larelacin espacial entre los datos. Sin embargo como se puede observar en las frmulas, lanica que no requiere que la media del proceso (m) sea conocida, es la funcin desemivarianza. Por esta razn, fundamentalmente, en la prctica se emplea elsemivariograma y no las otras dos funciones.

    A continuacin se presenta un ejemplo ilustrativo del clculo de la funcin de semivarianzaexperimental

    Ejemplo. Suponga que se tienen medidas sobre una variable hipottica cuyos valores estncomprendidos entre 28 y 44 unidades y su configuracin en la regin de estudio es como sepresenta en el esquema de la siguiente pgina. Como se indica en la representacin, ladistancia entre cada par de puntos contiguos es de 100 unidades. Luego si existe un puntofaltante la distancia entre los dos valores ubicados a cada lado de ste ser de 200 unidades.Veamos como calcular bajo esta situacin el semivariograma experimental. Por simplicidadse calcularn slo los semivariogramas en sentido occidente-oriente (izquierda-derecha)y sur-norte(inferior-superior), debido a que para obtener un semivariograma experimentalen el que slo se tenga en cuenta la distancia y no la orientacin, se requerira calcular ladistancia euclidiana entre todas las parejas de puntos.

  • 5/28/2018 CURSO GEOESTADISTICA

    19/49

    19

    44 40 42 40 39 37 36

    42 43 42 39 39 41 40 38

    37 37 37 35 38 37 37 33 34

    35 38 35 37 36 36 35 200

    36 35 36 35 34 33 32 29 28

    38 37 35 30 29 30 32

    100

    En primer lugar en sentido izquierda-derecha se encuentran todas las parejas de puntos que

    estn a una distancia de 100 unidades. Una vez detectados estos puntos se aplica la frmuladel semivariograma experimental. De igual forma se procede para las distancias de 200,300, 400 y 500 unidades. Especficamente en el caso de las distancias de 100 y 200unidades se realiza la siguiente operacin:

    (100) = (38 - 37)2+ (37 - 35)2+ (29 - 30)2+ ... + (37 - 36)2/2* 36 = 1.458(200) = (40 - 44)2+ (40 - 40)2+ (42 - 39)2+ ... + (29 - 32)2/2* 36 = 3.303

    Similarmente procedemos para las otras distancias y para el sentido inferior-superior. Losresultados se muestran en la siguiente tabla.

    Tabla 5. Valores de la funcin de semivarianza experimental en dos direcciones para el

    conjunto de datos hipotticos de la configuracin de datos dada arriba.Distancia Semivarianza Sentido Este - Oeste Semivarianza Sentido Norte - Sur100 1.45 5.34200 3.30 9.87300 4.31 18.88400 6.69 27.53

    Al graficar los valores de la funcin de semivarianza experimental dados en la tablaanterior (Fig. 8) se observa que en sentido inferior-superior el semivariograma es mayorque en sentido izquierda-derecha, luego la conclusin ms relevante para este conjunto de

    datos es que la estructura de correlacin espacial no slo depende de la distancia entre lasobservaciones, sino de su orientacin. En otras palabras el fenmeno es anisotrpico(debido a que el sill en las dos direcciones es distinto existe anisotropa zonal; Samper &Carrera, 1990)

  • 5/28/2018 CURSO GEOESTADISTICA

    20/49

    20

    Semivariogramas Experimentales

    0

    5

    10

    15

    20

    25

    30

    100 200 300 400

    Distancia

    Semivar

    ianza

    Norte-Sur

    Este-Oeste

    Figura 8. Funcin de semivarianza experimental en dos direcciones para el conjunto dedatos hipotticos del ejemplo de esta seccin.

    3.2. Modelos Tericos de Semivarianza.

    Existen diversos modelos tericos de semivarianza que pueden ajustarse al semivariogramaexperimental (funcin de semivarianza calculada con los datos muestrales). En Samper &Carrera (1990) se presenta una discusin respecto a las caractersticas y condiciones questos deben cumplir. En general dichos modelos pueden dividirse en no acotados (lineal,logartmico, potencial) y acotados (esfrico, exponencial, gaussiano) (Warrick et al.,1986). Los del segundo grupo garantizan que la covarianza de los incrementos es finita, porlo cual son ampliamente usados cuando hay evidencia de que presentan buen ajuste. Losparmetros bsicos de estos modelos son el efecto pepita, la meseta y el rango (David,1977).Antes de estudiar los modelos usados para ajustar los semivariogramas

    experimentales se definirn dichos parmetros: Efecto Pepita

    Se denota por C0y representa una discontinuidad puntual del semivariograma en el origen.Puede ser debido a errores de medicin en la variable o a la escala de la misma. En algunasocasiones puede ser indicativo de que parte de la estructura espacial se concentra adistancias inferiores a las observadas.

    Meseta

    Es la cota superior del semivariograma. Tambin puede definirse como el limite del

    semivariograma cuando la distancia h tiende a infinito. La meseta puede ser o no finita. Lossemivariogramas que tienen meseta finita cumplen con la hiptesis de estacionariedadfuerte; mientras que cuando ocurre lo contrario, el semivariograma define un fenmenonatural que cumple slo con la hiptesis intrnseca. La meseta se denota por C1o por (C0+C1) cuando la pepita es diferente de cero. Si se interpreta la pepita como un error en lasmediciones, esto explica porque se sugiere que en un modelo que explique bien la realidad,la pepita no debe representar mas del 50% de la meseta. Si el ruido espacial en las

  • 5/28/2018 CURSO GEOESTADISTICA

    21/49

    21

    mediciones explica en mayor proporcin la variabilidad que la correlacin del fenmeno,las predicciones que se obtengan pueden ser muy imprecisas.

    Rango

    Es la distancia a partir de la cual dos observaciones son independientes. El rango se

    interpreta como la zona de influencia. Existen algunos modelos de semivariograma en losque no existe una distancia finita para la cual dos observaciones sean independientes; porello se llama rango efectivo a la distancia para la cual el semivariograma alcanza el 95% dela meseta. Entre ms pequeo sea el rango, ms cerca se esta del modelo de independenciaespacial. El rango no siempre aparece de manera explcita en la frmula delsemivariograma. En el caso del modelo esfrico (3.2.1), el rango coincide con el parmetroa, que se utilizar en las ecuaciones ms adelante. Sin embargo, en el modelo exponencial(3.2.2), el rango efectivo es a/3 y en el modelo gaussiano (3.2.3) es a/3.

    3.2.1. Modelo Esfrico

    Tiene un crecimiento rpido cerca al origen (Fig. 9), pero los incrementos marginales vandecreciendo para distancias grandes, hasta que para distancias superiores al rango losincrementos son nulos. Su expresin matemtica es la siguiente:

    ( )h C

    h

    a

    h

    ah a

    C h a

    1

    3

    1

    3

    2

    1

    2

    En donde C1representa la meseta, a el rango y h la distancia.

    3.2.2. Modelo Exponencial

    Este modelo se aplica cuando la dependencia espacial tiene un crecimiento exponencialrespecto a la distancia entre las observaciones. El valor del rango es igual a la distancia parala cual el semivariograma toma un valor igual al 95% de la meseta (Fig. 9). Este modelo esampliamente usado. Su expresin matemtica es la siguiente:

    ( ) exph C h

    a

    1 1

    3

    3.2.3. Modelo Gaussiano

    Al igual que en el modelo exponencial, la dependencia espacial se desvanece solo en unadistancia que tiende a infinito. El principal distintivo de este modelo es su forma parablicacerca al origen (Fig.9). Su expresin matemtica es:

    ( ) exph C h

    a

    1

    2

    21

  • 5/28/2018 CURSO GEOESTADISTICA

    22/49

    22

    0

    5

    10

    15

    20

    25

    30

    0 50 100 150 200 250 300

    Distancia(h)

    Semivariogram

    a

    Esfrico

    Exponencial

    Gaussiano

    Figura 9. Comparacin de los modelos exponencial, esfrico y Gaussiano. La lneapunteada vertical representa el rango en el caso del modelo esfrico y el rango efectivo enel de los modelos exponencial y gaussiano. Este tiene un valor de 210, respecto a una escalasimulada entre 0 y 300. El valor de la meseta es 30 y el de la pepita 0. El 95% de la mesetaes igual a 28.5.

    3.2.4. Modelo Monmicos.

    Corresponden a los modelos que no alcanzan la meseta (Fig. 10). Su uso puede ser delicadodebido a que en algunos casos indican la presencia de no estacionariedad en algunadireccin. Su frmula matemtica es la siguiente:

    ( )h kh 0 2 Obviamente cuando el parmetro es igual a uno el modelo es lineal y k representa lapendiente de la ecuacin de regresin con intercepto cero. Grficamente se puedenrepresentar as:

    (h) 1

  • 5/28/2018 CURSO GEOESTADISTICA

    23/49

    23

    3.2.5. Modelo Pepita Puro.

    Es indicativo de carencia de correlacin espacial entre las observaciones de una variable(Fig. 11). Es comn sumar este modelo a otro modelo terico de semivarianza, paraobtener lo que se conoce como semivariograma anidado. Lo anterior se sustenta en una

    propiedad de los semivariogramas que dice que cualquier combinacin lineal desemivariogramas con coeficientes positivos es un semivariograma. Su expresinmatemtica es:

    ( )hh

    C h

    0 0

    00 , donde C0>0

    Su representacin grfica es la siguiente:

    (h)

    C0

    h

    Figura 11. Modelo de semivarianza terico para variables sin correlacin espacial.

  • 5/28/2018 CURSO GEOESTADISTICA

    24/49

    24

    Capitulo Cuatro

    Prediccin Espacial

    4.1. Prediccin Espacial Optima.De la teora de la decisin se conoce que si Z0 es una cantidad aleatoria y Z

    *0 es su

    predictor 1, entonces )Z;Z(L *00 representa la prdida en que se incurre cuando se predice

    0Z con*

    0Z y el mejor predictor ser el que minimice Z/Z;ZLE *00 con

    n21 Z,,Z,ZZ , es decir el predictor ptimo es el que minimice laesperanzacondicional de la funcin de prdida. Si Z/ZEZZZZ;ZL 0*0

    2*

    00

    *

    00 . Laexpresin anterior indica que para encontrar el predictor ptimo se requiere conocer ladistribucin conjunta de la n+1variables aleatorias.

    4.2. Definicin de Kriging.

    La palabra kriging procede del nombre del gelogo sudafricano D. G. Krige, cuyos trabajosen la prediccin de reservas de oro, realizados en la dcada del cincuenta, suelenconsiderarse como pioneros en los mtodos de interpolacin espacial. El kriging es unconjunto de mtodos de prediccin espacial que se fundamentan en la minimizacin deler ror cuadrti co medio de prediccin. En la tabla 6 se mencionan los tipos de krigingyalgunas de sus propiedades. En la secciones 4.3 y 4.4, se hace una presentacin detalladade ellos.

    Tabla 6. Tipos de predictores kriging y sus propiedades.TIPO DE

    PREDICTORNOMBRE PROPIEDADES

    LINEAL Simple Ordinario Universal

    Son ptimos si haynormalidad multivariada.

    Independiente de ladistribucin son los mejorespredictores linealmenteinsesgados.

    NO LINEAL Indicador Probabilstico

    Log Normal, Trans-Gaussiano Disyuntivo

    Son los mejores predictoresindependientemente de ladistribucin.

    1La palabra estimacin es utilizada exclusivamente para inferir sobre parmetros fijos pero desconocidos;prediccines reservada para inferencia sobre cantidades aleatorias.

  • 5/28/2018 CURSO GEOESTADISTICA

    25/49

    25

    Los mtodos kriging se aplican con frecuencia con el propsito de prediccin, sin embargoestas metodologas tienen diversas aplicaciones, dentro de las cuales se destacan lasimulacin y el diseo de redes ptimas de muestreo (capitulo 5).

    4.3. Kriging Ordinario

    Suponga que se hacen mediciones de la variable de inters Z en los puntos x ide la reginde estudio, es decir se tienen las observaciones Z(x1), . . . , Z(xn), y se desea predecir Z(xo),en el punto xo donde no hubo medicin. Lo anterior puede representado en el siguienteesquema:

    Y

    Z(x1) Z(x2) Z(x3) Z(x4) *Z(x0) Z(x5) Z(xj) Z(xi) Z(xn)

    X

    Los puntos negros representan las coordenadas de la regin donde se hizo medicin de lavariable de inters. El asterisco indica la ubicacin del punto donde se requiere predecir lavariable. Asociado a cada punto hay una correspondiente coordenada X, Y. En estacircunstancia, el mtodo kriging ordinario propone que el valor de la variable puedepredecirse como una combinacin lineal de los valores medidos as:

    Z*(x0) = 1Z(x1) + 2Z(x2) + 3Z(x3) + 4Z(x4) + 5Z(x5) + . . . + nZ(xn)

    =

    n

    1iii

    )x(Z

    En donde los i representan los pesos o ponderaciones de los valores originales. Dichospesos se calculan en funcin de la distancia entre los puntos muestreados y el punto dondese va a hacer la correspondiente prediccin. La suma de los pesos debe ser igual a uno paraque los errores de prediccin tengan promedio cero. Esto ltimo se conoce como elrequisito de insesgamiento.

    Matemticamente la propiedad de insesgamiento se expresa a travs de:

    0)]x(Z)x(Z[E 0*

    Asumiendo que el proceso es estacionario de media k y utilizando las propiedades del valoresperado, se demuestra que la suma de las ponderaciones es igual a uno:

    0)]x(Z)x(Z[E 00*

    )]x(Z[E)]x(Z[E)]x(Z)x(Z[E 00*

    00*

  • 5/28/2018 CURSO GEOESTADISTICA

    26/49

    26

    0k)]x(Z[E i

    n

    1i

    i

    k

    k

    )x(Z(E...

    k

    )x(Z(E

    k

    )x(Z(E nn2211

    n

    1i

    i

    n

    1i

    i

    n21

    1k)(k

    k)...(k

    Se dice que Z*(x0) es el mejor predictor porque los pesos se obtienen de tal manera queminimicen la varianza del error de prediccin, es decir que minimicen la expresin:

    )]x(Z)x(Z[VAR 00*

    Esta ltima es la caracterstica distintiva del kriging , ya que existen otros mtodos deinterpolacin como el de distancias inversas o el poligonal que no garantizan varianza

    mnima de prediccin (Samper & Carrera, 1990). La estimacin de los pesos se obtieneminimizando )]Z(x)(x[ZV 00

    * sujeto a

    n

    1i

    i 1 .

    Se tiene que )]x(Z[V)]x(Z,)x(Z[COV2)]x(Z[V)]x(Z)x(Z[V 000*

    0*

    00*

    Desagregando las componentes de la ecuacin anterior se obtiene los siguiente:

    n

    1i

    n

    1j

    jijii

    n

    1i

    i0* )]x(Z,)x(Z[COV)x(ZV)]x(Z[V

    Nota: En adelante )]x(Z,)x(Z[COV ji se notara por Cij.

    20)]x(Z[V

    n

    1i

    0ii00* )x(Z,)x(ZCOV)]x(Z,)x(Z[COV

    n

    1i

    n

    1i

    0ii0ii C)]x(Z),x(Z[COV

    Entonces reemplazando, tenemos que:

    n

    1i

    n

    1j

    n

    1i

    20iiijji00

    * C2C)]x(Z)x(Z[V

    Luego se debe minimizar la funcin anterior sujeta a la restriccin

    n

    1i

    i 1 . Este problema

    de minimizacin con restricciones se resuelve mediante el mtodo de multiplicadores deLagrange:

  • 5/28/2018 CURSO GEOESTADISTICA

    27/49

    27

    n

    1i

    n

    1j

    n

    1i

    n

    1i

    i

    Lagra ngededorMultiplica

    20iiijji

    2k

    0

    12C2C

    Siguiendo el procedimiento acostumbrado para obtener valores extremos de una funcin,se deriva e iguala a cero, en este caso con respecto a y :

    n

    1j

    10j1j10

    n

    1j

    j1j

    10

    n

    2j

    j1j111

    1

    n

    2j

    n

    1i

    n

    1i

    i2

    0ii

    n

    2i

    ij

    n

    1j

    jij1j11121

    1

    2k

    )1(CC02C2C2

    2C2C2C2

    12C2)CC2C()(

    De manera anloga se determinan las derivadas con respecto a 2, ..., n :

    n

    1j

    20j2j20

    n

    1j

    j2j2

    2k )2(CC02C2C2

    )(

    .

    .

    .

    n

    1j

    0nnjj0n

    n

    1j

    njj

    n

    2k )3(CC02C2C2

    )(

    por ltimo derivamos con respecto a :

    n

    1i

    n

    1i

    1i

    2k )4(1022

    )(

    De (1), (2), (3), (4) resulta un sistema de (n + 1) ecuaciones con (n + 1) incgnitas, quematricialmente puede ser escrito como:

    1

    C

    .

    .

    .

    C

    .

    .

    .

    01...1

    1C...C

    ....

    ....

    ....

    1C...C

    0n

    10

    n

    1

    nn1n

    n111

    Cij Ci0por lo cual los pesos que minimizan el error de prediccin se determinan mediante lafuncin de covariograma a travs de:

  • 5/28/2018 CURSO GEOESTADISTICA

    28/49

    28

    = Cij-1

    Ci0.

    Encontrando los pesos se calcula la prediccin en el punto xo. De forma anloga se procedepara cada punto donde se quiera hacer prediccin.

    Los pesos tambin pueden ser estimados utilizando la funcin de semivarianza,

    expresando la funcin de covariograma en trminos de la funcin de semivarianza,mediante la siguiente relacin:

    Notacin: ij = (h), donde h es la distancia entre los puntos i y j, anlogamenteCij= C(h), adems

    2= V(Z(x)).

    2ijij ))x(Z)x(Z(E2

    1

    2iij2j ))x(Z()x(Z)x(Z(2))x(Z(E2

    1

    2iij2j ))x(Z(E2

    1)x(Z)x(ZE)x(Z(E2

    1

    2ij22i22j k)x(Z)x(ZEk]))x(Z[(E2

    1k]))x(Z[(E

    2

    1

    )x(Z)x(ZCOV))x(Z(V2

    1))x(Z(V

    2

    1ij

    )x(Z)x(ZCOV)x(ZV ij

    ij2

    ijij2 CC (5)

    Reemplazando (5) en (1) ,(2) y (3) se determinan los pesos ptimos en trminos de lafuncin de semivarianza:

    n

    1j

    102

    j12

    j

    n

    1j

    10j1j

    1

    2k )()(CC

    )(

    102

    1

    1j

    n

    1j

    j1jj2

    10j1

    n

    1jj10

    2

    j1

    n

    1jj

    2

    Similarmente,

    n

    1j

    20j2j2

    2k )(

    n

    1j

    0nnjjn

    2k )(

  • 5/28/2018 CURSO GEOESTADISTICA

    29/49

    29

    El sistema de ecuaciones se completa con (4). De acuerdo con lo anterior los pesos seobtienen en trminos del semivariograma a travs del sistema de ecuaciones:

    .

    11 1

    1

    1 10

    0

    1

    1

    1 1 0 1

    . . .

    . . . .

    . . . .

    . . . .

    . . .

    . . .

    .

    .

    .

    .

    .

    .

    n

    n nn n n

    Los pesos de kriging tambin pueden ser estimados mediante el uso del correlograma

    aplicando la siguiente relacin:2

    ijij

    C

    .

    La varianza de prediccin en cada punto es calculada por (Cressie, 1993):

    o i ioi

    n2

    1

    en donde io, y (i) son interpretados de igual forma a como fueron descritosanteriormente.

    4.3.1. Validacin del kriging.Existen diferentes mtodos para evaluar la bondad de ajuste del modelo de semivariogramaelegido con respecto a los datos muestrales. El ms empleado es el de validacin cruzada,que consiste en excluir la observacin de uno de los n puntos muestrales y con los n-1valores restantes y el modelo de semivariograma escogido, predecir va kriging el valor dela variable en estudio en la ubicacin del punto que se excluy. Se piensa que si el modelode semivarianza elegido describe bien la estructura de autocorrelacin espacial, entonces ladiferencia entre el valor observado y el valor predicho debe ser pequea. Esteprocedimiento se realiza en forma secuencial con cada uno de los puntos muestrales y as seobtiene un conjunto de n errores de prediccin . Lo usual es calcular medidas queinvolucren a estos errores de prediccin para diferentes modelos de semivarianza yseleccionar aquel que optimice algn criterio como por ejemplo el del mnimo error

    cuadrtico medio (MECM). Este procedimiento es similar al mtodo Jacknife, una tcnicade re-muestreo, empleado en diversos contextos estadsticos para estimar varianzas deestimadores, entre otros aspectos. Una forma fcil de hacer la validacin cruzada esmediante un grfico de dispersin de los valores observados contra los valores predichos.En la medida en que la nube de puntos se ajuste ms a una lnea recta que pase por elorigen, mejor ser el modelo de semivariograma utilizado para realizar el kriging.

  • 5/28/2018 CURSO GEOESTADISTICA

    30/49

    30

    4.3.2. Representacin de las predicciones

    Una vez se ha hecho la prediccin en un conjunto de puntos diferentes de los muestrales vakriging, se debe elaborar un mapa que d una representacin de global del comportamientode la variable de inters en la zona estudiada. Los ms empleados son los mapas decontornos, los mapas de residuos y los grficos tridimensionales. En el caso de los mapas

    de contornos, en primer lugar se divide el rea de estudio en un enmallado y se hace laprediccin en cada uno de los nodos de ste mismo. Posteriormente interpolando se unenlos valores predichos con igual valor, generando as las lneas de contorno (isolneas dedistribucin).

    4.4. Otros Mtodos Kriging

    A continuacin se mencionan algunos aspectos generales de otros mtodos de prediccinespacial. Un estudio riguroso de ellos puede hacerse en Cressie (1993), Deutsch & Journel(1998) y Samper & Carrera (1990)

    Kriging Simple

    Su expresin es similar a la del kriging ordinario. Es menos usado en la prctica porquerequiere conocer la media del proceso (). El procedimiento para estimar los pesos seresuelve de manera anloga al del sistema kriging Ordinario.

    )Z(Z i

    n

    1i

    i

    *

    0

    Kriging Universal

    Se aplica cuando el proceso estocstico de estudio no es estacionario en la media. Supongaque la tendencia en la media puede ser modelada a travs de la siguiente ecuacin deregresin:

    )s(R)s(m)s(Z iii

    donde )s(Z i es el proceso estocstico de inters, )s(m i representa la tendencia, que es

    modelada como una funcin determinstica de las coordenadas geogrficas y )s(R i hace

    referencia al error de estimacin . El predictor en este caso tiene la forma

    *

    00

    *

    0 R)s(mZ ,

    n

    1i

    ii

    *

    0 RR

    donde *0Z es la prediccin en el sitio de inters y )s(m 0 y*0R corresponden a la

    tendencia ajustada y la prediccin del residual, llevada a cabo a travs de kriging ordinario,en este mismo.

  • 5/28/2018 CURSO GEOESTADISTICA

    31/49

    31

    Kriging Indicador

    Suponga que se tiene un proceso estocstico espacial Zi.. Con base en los valoresobservados se construye la siguiente variable indicadora:

    casoOtro0zZSi1I ii

    entonces:

    n

    1i

    ii

    *

    000 III/1IPI/IE , donde n21 I,,I,II .

    El kriging indicador consiste en hacer una transformacin de los valores observados a unavariable indicadora (utilizando por ejemplo la mediana o los cuartiles) y posteriormente

    aplicar kriging ordinario o simple para predecir en sitios de la regin de estudio nomuestreados probabilidades de que la funcin indicadora tome el valor 1. Esteprocedimiento tambin es vlido para procesos estocsticos en los que la variable estudiadaen cada sitio es de tipo doble estado (por ejemplo cuando se mide presencia -ausencia deuna especie).

    Kriging Probabilstico

    Es un predictor basado en cokriging (seccin 4.5) que utiliza como variables predictorasuna variable indicadora y una variable generada a travs de la transformacin uniforme.

    Sea Zi la variable observada, i = 1,2, . . ., n entonces se definen las siguientestransformaciones:

    casoOtro0

    zZSi1I

    i

    i

    n

    )Z(RU ii para todo i, i = 1,2,. . . , n

    con )Z(R i igual al rango (posicin que ocupa dentro de los datos ordenados de menor amayor) la i-sima observacin muestral. La prediccin de probabilidad de xito en el sitios

    de inters est dada por:

    n

    1i

    n

    1i

    iiii

    *

    0 UvII

    Los pesos i y iv se estiman mediante el sistema de ecuaciones del mtodo cokriging(seccin 4.5).

  • 5/28/2018 CURSO GEOESTADISTICA

    32/49

    32

    Kriging Log-Normal y Multi-Gaussiano

    Estos dos procedimientos asumen que las variable regionalizada considerada siguedistribucin normal en cada punto del dominio. El primero de estos consiste en aplicar

    kriging simple u ordinario a la transformacin logartmica de los datos. En el segundo seasume que el proceso estocstico sigue distribucin normal con igual media y varianza y acada valor observado le asigna su "score" normal (probabilidad acumulada, hasta elcorrespondiente valor, bajo el supuesto de normalidad). Posteriormente se realiza krigingsimple u ordinario para hacer prediccin en sitios no muestreados de las correspondientesprobabilidades acumuladas. Estos dos mtodos, aunque fciles de implementar, no son muyrealistas porque estn sumiendo conocida la distribucin de probabilidad y los parmetrosde la misma.

    Kriging Disyuntivo

    Kriging de transformaciones polinomiales, ii Zf , especficas de los datos.

    n

    1i

    ii

    *

    0 )Z(fZ .

    En la derivacin del sistema de ecuaciones correspondiente, se emplean conceptosreferentes a espacios de Hilbert y polinomios de Legendre, Jacobi y Hermite (Samper &Carrera, 1990).

    4.5.Geoestadstica Bivariada y Cokriging Ordinario

    Si se tienen dos variables regionalizadas Zv1y Zv2 tomadas en cada uno de los puntos. Elsemivariograma cruzado de estas dos, se estima por:

    v vh

    v v

    n

    v vhn

    Z x h Z x Z x h Z xh

    1 2 1 1 2 2

    1

    2( ) ( ) ( ) ( ) ( )

    (6)

    Donde nhes el nmero de parejas de datos que se encuentran a una distancia h (Bogaert etal., 1995).

    4.5.1. Modelo Lineal de Corregionalizacin (MLC)

    El MLC asume que todos los semivariogramas simples y el semivariograma cruzadopueden expresarse como una suma de modelos bsicos (exponencial, esfrico, gaussiano,etc.) idnticos. Para el caso de dos variables:

  • 5/28/2018 CURSO GEOESTADISTICA

    33/49

    33

    )h(...)h()h(vv

    )h(...)h()h(v

    )h(...)h()h(v

    mm0021

    mm002

    mm001

    (7)

    donde:

    v1y v2 son los semivariogramas simples, v1v2es el semivariograma cruzado. 0(h), 1(h), .. ., m(h) son los modelos bsicos de semivariograma y , y son constantes.Matricialmente:

    )h(B)h(

    )h()h( s

    m

    0s

    s

    v)h(vv

    )h(vvv

    221

    211

    , donde

    )h(0

    0)h()h(B

    s

    s

    s

    ss

    ss

    s

    (8)

    A (h)se le conoce como matriz de corregionalizacin. Esta puede ser tambin calculadacon base en covarianzas cruzadas y correlaciones cruzadas, para lo cual se aplican lasformulas dadas en la seccin 3.1.2.

    4.5.2. Cokriging

    El mtodo de prediccin espacial cokriging consiste en hacer prediccin espacial de unavariable con base en su informacin y en la de algunas variables auxiliares que estecorrelacionadas espacialmente con ella. El predictor cokriging tiene la siguiente expresinen el caso en el que se considera una sola variable auxiliar:

    )x(Zb)x(Za)x(Z jv

    n

    1j

    jiv

    n

    1i

    io

    *

    v 2

    2

    1

    1

    1

    (9)

    El lado izquierdo de la igualdad representa la prediccin de la variable de inters en elpuntox0no muestreado.

    )x(Z iv1 con i=1, 2 , ... , n1, representa los valores observados de la variable primaria. As

    mismo, )x(Z jv2 con j=1, 2, . . ., n2, representa los valores observados de la variable

    auxiliar. aiy bj, con i=1, 2 , ... , n1 y j=1, 2, . . ., n2 respectivamente, representan los pesos oponderaciones de las observaciones de las variables primaria y auxiliar y se estiman conbase en el MLC ajustado a los variogramas simples y cruzados. Los pesos aiy bj se estimande manera anloga al proceso descrito para el mtodo kriging, es decir estos sern los queminimizan la varianza de prediccin sujeta a la restriccin de que el predictor sea

  • 5/28/2018 CURSO GEOESTADISTICA

    34/49

    34

    insesgado. La estimacin de los parmetros se obtiene resolviendo el siguiente sistema deecuaciones (Isaaks & Srivastava, 1989):

    0

    1

    )m,0(

    )1,0(

    )n,0(

    )1,0(

    b

    b

    a

    a

    001100

    000011

    10)m,m()m,1()m,n()m,1(

    10)1,m()1,1()1,n()1,1(

    01)n,m()n,1()n,n()n,1(

    01)1,m()1,1()1,n()1,1(

    2v1v

    2v1v

    1v

    1v

    2

    1

    m

    1

    n

    1

    2v2v2v1v2v1v

    2v2v2v1v2v1v

    2v1v2v1v1v1v

    2v1v2v1v1v1v

    (10)

    La matriz del lado izquierdo contiene los valores de las funciones de semivarianza y de

    semivarianza cruzada calculadas para todas las distancias entre las parejas de puntosconsideradas. Las dos ultimas filas de dicha matriz son las correspondientes a la restriccinde insesgamiento del predictor. ai y bj con i = 1, 2, ..., n y j = 1, 2, ...., m, son losparmetros a estimar, 1 y 2 son los multiplicadores de Lagrange empleados para larestriccin de insesgamiento y el vector del lado derecho contiene los valores de lafunciones de semivarianza y semivarianza cruzada evaluados para las distancia entre lossitios de muestreo (de ambas variables) y el sitio donde se desea hacer la prediccin. Lasdos ltimas filas del vector estn asociadas a la condicin de insesgamiento. Lacorrespondiente varianza de prediccin del mtodo cokriging se calcula como (Bogaert etal, 1995):

    m

    1j02vj2vj

    n

    1i01vi1vi101v01v

    2

    k xZ,xZCovbxZ,xZCovaxZ,xZCov (11)donde 1 es el multiplicador de Lagrange empleado para la restriccin dado por la

    condicin de insesgamiento

    n

    1ii 1a . l,kxZ,xZCov vivi2vilvikvi es la

    funcin de covarianza espacial de la variable i, i=1,2, evaluada para la distancia entre lossitios de muestreo k, l.La ventaja del mtodo cokriging frente al kriging radica en el hecho de que cuando lavariable auxiliar est ampliamente correlacionada con la variable de inters se puedeobtener un disminucin en la varianza de prediccin, no obstante dicha variable tengamenor densidad de muestreo. En situaciones en las que la variable objetivo tiene costos

    altos de muestreo se recomienda la aplicacin de esta metodologa (Bogaert et al., 1995).El mtodo cokriging se ha presentado en esta seccin en funcin de dos variables, sinembargo este puede ser extendido de manera natural al caso en que se tengan ms de dosvariables, sin embargo en estos casos puede ser dispendioso el ajuste del MLC.

  • 5/28/2018 CURSO GEOESTADISTICA

    35/49

    35

    Apndice

    6.1. lgebra de Matrices.

    La gran mayora de mtodos estadsticos, incluyendo la geoestadstica, pueden ser tratadosde forma mucho ms sencilla a travs del uso del lgebra de matrices. Por sta razn es til,si no esencial, tener un cierto conocimiento mnimo de sta rea de las matemticas. Loanterior es cierto siempre y cuando el inters sea usar los mtodos como una herramienta.La notacin del lgebra matricial algunas veces puede resultar desanimante. Sin embargo,no es difcil entender sus principios bsicos.

    6.1.1. Matriz

    Una matriz A de tamao (mxn) es un arreglo rectangular de m filas con n columnas.

    A

    a a a

    a a a

    a a a

    n

    n

    m m mn

    11 12 1

    21 22 2

    1 2

    . . .

    . . .

    . . .

    . . .

    . . .

    . . .

    6.1.2. Suma y Producto de MatricesEl procesos aritmtico de adicin, sustraccin, multiplicacin y divisin tiene suscontraparte con matrices. Si A y D son dos matrices de orden 3x2, entonces su suma sedefine como:

    A D

    a a

    a a

    a a

    d d

    d d

    d d

    a d a d

    a d a d

    a d a d

    11 12

    21 22

    31 32

    11 12

    21 22

    32 23

    11 11 12 12

    21 21 22 22

    31 31 32 32

    En el caso de la multiplicacin se debe cumplir que el nmero de columnas de la primeramatriz sea igual ala nmero de filas de la segunda.

    A B

    a a

    a a

    a a

    b b b

    b b b

    a b a b a b

    a b a b a b

    a b a b a b

    i i i i i i

    i i i i i i

    i i i i i i

    11 12

    21 22

    31 32

    11 12 13

    21 22 23

    1 1 1 2 1 3

    2 1 2 2 2 3

    3 1 3 2 3 32

    6.1.3. Inversa y Determinante de una Matriz.

  • 5/28/2018 CURSO GEOESTADISTICA

    36/49

    36

    Si k es un nmero, es cierto que k x k-1= 1. De forma similar si A es una matriz cuadrada(nmero de filas igual al nmero de columnas) su inversa es A -1, donde AA-1= A1A = I,con I igual a la matriz idntica (matriz de unos en la diagonal y cero por fuera de ella). Unejemplo de matriz inversa es:

    2 1

    1 2

    2 3 1 3

    1 3 2 3

    1

    / /

    / /

    Esto puede comprobarse observando que:

    2 1

    1 2

    2 3 1 3

    1 3 2 3

    1 0

    0 1

    / /

    / /

    la inversa de una matriz 2x2, si existe, puede determinarse fcilmente por medio delsiguiente clculo:

    a a

    a a

    a a

    a a11 12

    21 22

    1 22 12

    21 11

    Donde = a11a22- a12a21. La cantidad es llamada el determinantede la matriz.Claramente la inversa no est definida si el determinante es igual a cero. Con matricesgrandes el clculo de la inversa es tedioso y se debe usar un programa de computo pararealizarlo.

    6.1.4. Valores y Vectores Propios.

    Dada una matriz A de orden (n x n),si existe un vector x(n x 1) y un nmero tal que

    Ax= x. (A - I)x = 0

    donde I es la matriz idntica de orden (n x n) y 0 es un vector (n x 1), entonces se llama a y x, respectivamente, valor y vector propio de la matriz A. Pueden encontrarse hasta nvalores propios y hay tantos vectores propios como valores propios se encuentren. Losvalores de deben satisfacer que el determinante de A - I = 0. Los vectores propios secalculan despus de reemplazar los valores propios encontrados en la expresin Ax= x. Aligual que con la inversa, para matrices grandes se debe emplear un software especializadopara su obtencin. A continuacin, a manera de ilustracin, se realiza el clculo de losvectores y valores propios de una matriz de orden 2 x 2.

    Sea A

    6 3

    3 4, entonces

    A I

    0

    6 3

    3 4

    1 0

    0 10

  • 5/28/2018 CURSO GEOESTADISTICA

    37/49

    37

    6 3

    3 4

    0

    00

    ( )

    ( )

    6 3

    3 4

    0

    ( )( )6 4 9 0

    10 15 02

    b b ac

    a

    2 4

    2

    ( ) ( )

    . , .

    10 100 4 15

    2

    10 40

    2

    81623 18377

    Para cada valor propio existe un vector propio, el cual se obtiene reemplazando el valorpropio correspondiente en la primera expresin de la pgina anterior y usando la condicinde que los respectivos vectores propios estn normalizados.

    Un vector xx

    x

    1

    2se dice que est normalizado si satisface que x x1

    222 1 .

    Teniendo en cuenta lo anterior se calculan los vectores propios de la siguiente forma:

    (A - I)x = 0

    ( )

    ( )

    6 3

    3 4

    0

    0

    1

    2

    x

    x

    ( )

    ( )

    6 3 0

    3 4 0

    1 2

    1 2

    x x

    x x

    Restando las dos ecuaciones anteriores y factorizando, obtenemos:

    x x

    x x

    1 2

    1 2

    6 3 3 4 0

    3 1 0

    ( ) ( )

    ( ) ( )

    x x

    121

    3

    ( )

    ( )

    Entonces para = 8.1623 y = 1.8377 se tiene respectivamente:

  • 5/28/2018 CURSO GEOESTADISTICA

    38/49

    38

    x1= 1.3847x2 y x1= -0.7207x2 . Ahora utilizando la restriccin de que los vectoresestn normalizados se obtiene:

    x x

    x x

    x

    x x

    12 2

    12

    12 2

    12 2

    12 2 2

    12

    2

    2 1

    2

    13847 1

    13847 13847

    1 13847 1 3847

    13847

    1 13847

    13847

    1 13847

    08107

    .

    ( . ) ( . )

    . ( . )

    ( . )

    .

    .

    .

    .

    Reemplazando el valor de x1, obtenemos que x x

    21

    13847

    08107

    1384705855

    .

    .

    .. .

    Luego el vector propio asociado al valor propio = 8.1623 esx

    x

    1

    2

    08107

    05855

    .

    .

    Efectuando un procedimiento similar se puede comprobar que el vector propio asociado al

    valor propio = 1.8377 esx

    x

    1

    2

    05847

    08113

    .

    .

    En resumen dada la matriz del ejemplo entonces se puede comprobar que:

    6 3

    3 4

    81623 0

    0 81623

    08107

    05855

    0

    0

    .

    .

    .

    .

    y, con el segundo valor y vector propio, que

    6 3

    3 4

    18377 0

    0 18377

    05847

    08113

    0

    0

    .

    .

    .

    .

    6.1.5. Teorema del Valor Singular

    Sea Xnxpuna matriz real, existen V y U ortogonales (VTV = I y UTU=1) y una matriz D

    diagonal tal que:

    T

    VDUX donde :

    i.

    q

    1

    0

    0

    D

    , q21

  • 5/28/2018 CURSO GEOESTADISTICA

    39/49

    39

    ii. Las columnas de V son los vectores propios de XTX y las filas de U son los vectorespropios de XTX.

    Si se calculan los vectores propios de XTX y se multiplica a la derecha por U en la ecuacinTVDUX , entonces:

    VDXU . Ahora multiplicando por D-1a la derecha, se tiene:

    1XUDV

    6.2. Conceptos de Probabilidad

    A continuacin se presenta una revisin no exhaustiva y a manera introductoria deconceptos bsicos de la teora de probabilidades. Un estudio profundo y formal de estos se

    puede hacer en Mood, Graybill & Boes (1974)

    6.2.1. Variable Aleatoria

    Si X es una funcin que le asigna a cada uno de los resultados de un experimento aleatorio(aquel cuya respuesta no puede ser establecida de antemano) un nmero real, entonces X sellama una Variable Aleatoria. Estas pueden ser discretas o continuas.

    6.2.2. Funcin de Probabilidad

    Si X es una variable aleatoria discreta. Se llamar a f(x) = P (X = x) funcin deprobabilidad de la variable aleatoria X, si satisface las siguientes propiedades:

    i. XRx0xf

    ii. 1xfx

    .

    Si existe una funcin f(x) tal que:

    i. x,0xf ii.

    1dxxf

    iii. dxxfbXaP ba para cualquier a y b, entonces f(x) es la funcin de densidad de

    probabilidad de la variable aleatoria continua X.

    La funcin de probabilidad acumulada, notada como F(x), es igual a xXP y se evala atravs de una sumatoria o de una integral dependiendo de si X es discreta o continua.

  • 5/28/2018 CURSO GEOESTADISTICA

    40/49

    40

    6.2.2.1. Valor Esperado y Varianza

    Si X es una variable aleatoria, el valor esperado de una funcin de la variable aleatoria X,

    Xg est dado por:

    continuaXdxxfxg

    discretaXxfxg

    XgE x

    como caso particular,

    continuaXdxxxf

    discretaXxxf

    XE x

    La varianza de la variable aleatoria X est definida como:

    continuaXdxxfx

    discretaXxfx

    XE)X(V2

    x

    2

    22

    La raz cuadrada de la varianza se denomina desviacin estndar y se denota por .

    Se cumple que:

    1. XaEaXE , con aconstante2. bXaEbaXE , con ay bconstantes3. XVaaXV 2 y aconstante4. 22 XEXEXV

    6.2.2.2. Funcin de Probabilidad Binomial y Normal.

    Modelo Binomial

    Suponga que hay un experimento que consiste en examinar n individuosy evaluar o mediren cada uno de ellos si tienen o no una caracterstica dada (slo hay dos posiblesresultados).Sea pla probabilidad de xito y q = 1-pla de fracaso en cada uno de los nensayos. Se asume que esta probabilidad es constante en cada uno de ellos.

  • 5/28/2018 CURSO GEOESTADISTICA

    41/49

    41

    Sea X= Nmero de xitos en los n ensayos, entonces asumiendo conocido p entonces esposible establecer las probabilidades de ocurrencia de cada evento mediante la siguienteecuacin, denominada modelo de probabilidad binomial:

    n.,..2,1,,0)1()(

    xpp

    x

    nxXP xnx

    En este modelo:

    )1()(

    )(

    2 pnpXV

    npXE

    Modelo Normal

    El modelo de probabilidad normal (Gaussiano) es til para encontrar las probabilidadesasociadas a eventos de variables aleatorias cuyas distribuciones de frecuencias sonsimtricas alrededor del valor promedio. Algunos ejemplos de este tipo de variablesaleatorias son los siguientes:Sea el valor promedio de la variable (E(X)) y 2 su correspondiente varianza (V(X)),entonces las probabilidades de ocurrencia de eventos asociados a los posibles resultados dela variable estudiada pueden ser encontrados usando la siguiente expresin, llamada modelode probabilidad normal:

    dxe2

    1bXaP

    2b

    a

    x2/1

    .

    Obviamente resultara muy dispendioso tener que calcular estas integrales para cada valorde a, b, y . Por esta razn se acude a un procedimiento llamado estandarizacin, el culconsiste en hacer la transformacin

    XZ . La variable anterior tendr (si la distribucin

    de frecuencias de X se ajusta a un modelo de probabilidad normal con media y varianza2) una distribucin de frecuencias que se ajusta a un modelo de probabilidad normal conmedia cero y varianza uno, es decir que:

    22

    1

    z2

    1z

    z

    21 e2

    1zZz

    bZ

    a)bXa(P

    La ecuacin anterior tambin puede resultar difcil de evaluar, sin embargo para cualquiervalor de a, b, y las correspondientes probabilidades pueden hallarse, sin necesidad deresolver la integral, empleando la tabla de distribucin acumulada normal estndar queaparece en los textos de estadstica.

    6.2.3. Funcin de Probabilidad Bivariada.

    Si X y Y son dos variables aleatorias discretas. La probabilidad de X = x y Y = y estdeterminada por la funcin de probabilidad bivariada yY,xXPy,xf donde :

    i. YX R,Ry,x,0y,xf

    ii. 1y,xfx y

  • 5/28/2018 CURSO GEOESTADISTICA

    42/49

    42

    Si existe una funcin y,xf tal que la probabilidad conjunta:

    dydxy,xfdYc,bXaP ba

    d

    c

    para cualquier valor de a, b, c y d en donde 0y,xf , y,x y 1dydxy,xf

    ,entonces y,xf es la funcin de probabilidad bivariada de X y Y.

    La funcin de probabilidad acumulada y,xF es igual a yY,xXP y se evala a travsde una doble sumatoria o de una doble integral dependiendo de si las variables aleatoriasson discretas o continuas, respectivamente.

    6.2.3.1. Funcin de Probabilidad Marginal

    Si X y Y son dos variables aleatorias con funcin de probabilidad conjunta y,xf . Las

    funciones de probabilidad marginales de Y y Y estn dadas por

    x

    y

    y,xfyf

    y,xfxf

    si X y Y son variables aleatorias discretas

    por

    ydx,xfyf

    dyy,xfxf si X y Y son variables aleatorias continuas

    6.2.3.2. Funcin de Probabilidad Condicional

    Sean X y Y dos variables aleatorias con funcin de densidad conjunta y,xf . La funcin deprobabilidad condicional de la variable aleatoria X, denotada por y/xf , para un valor fijoy de Y, est definida por:

    yfy,xf

    y/xf , donde yf es la funcin de probabilidad marginal de Y de manera tal que 0yf .

    De manera anloga, la funcin de probabilidad condicional de Y para un valor fijo x de Xse define como:

  • 5/28/2018 CURSO GEOESTADISTICA

    43/49

    43

    xf

    y,xfx/yf , donde xf es la funcin de probabilidad marginal de X de manera tal que

    0xf .

    6.2.3.3. Independencia Estadstica.

    Sean X y Y dos variables aleatorias con funcin de densidad conjunta y,xf . X y Y sonindependientes si y slo si:

    yfxfy,xf

    donde xf y yf son las funciones de probabilidad marginales.

    6.2.3.4. Valor Esperado, Varianza y Covarianza

    Sean X y Y dos variables aleatorias que se distribuyen conjuntamente. El valor esperado deuna funcin de X y Y, y,xg , se define como:

    continuassonYyXsidydxy,xfy,xg

    discretassonYyXsiy,xfy,xg

    Y,XgE x y

    La covarianza entre X y Y, denotada por Cov (X, Y), se define como:

    YEXEXYEYXXYEYXE YXXYYX

    donde X y Y representan los valores esperados de X y Y respectivamente.

    Si la covarianza de X y Y se divide por el producto de las desviaciones estndar de X y Y,el resultado es una cantidad sin dimensiones que recibe el nombre de coeficiente decorrelacin y se denota por Y,X .

    YX

    Y,XCovY,X

    6.2.3.5. Propiedades del Valor Esperado y la Varianza.

    Si X y Y son dos variables aleatorias con densidad conjunta, entonces se cumple que:

    1. YEXEYXE

  • 5/28/2018 CURSO GEOESTADISTICA

    44/49

    44

    2. Y,XCov2YVXVYXV

    3.

    n

    1i

    n

    1j

    jiji

    n

    1i

    ii X,XCovaaXaV .

    Observacin: ijji X,XCovX,XCov y iii XVX,XCov

    Como caso particular:

    212221212211 X,XCov2XVaXVaXaXaV

    3. Si YEXE , entonces Y,XCovYV2

    1XV

    2

    1YXE

    2

    1 2 .

    6.3. Algunos Mtodos Estadsticos.6.3.1. Regresin Simple

    En el modelo de regresin simple se establece una relacin lineal entre la esperanzacondicional de una variable aleatoria Y dados unos valores fijos de una variable X.

    Modelo Poblacional

    ii10i xY

    i10ii xYX/YE

    Yi: i-simo valor de la variable respuesta o dependiente en la poblacinxi:i-simo valor de la variable predictora o independiente en la poblacin

    10 y son parmetros poblacionales que representan el intercepto y la pendiente,

    respectivamentei : i-simo error aleatorio en la poblacin.

    Supuestos del Modelo.

    1. 0E i 2. 2iV 3. 0,Cov ji

    4. i 2,0N

    Modelo Muestral

    iii

    ii10i

    eyy

    exy

  • 5/28/2018 CURSO GEOESTADISTICA

    45/49

    45

    yi: i-simo valor de la variable respuesta en la muestra,xi: i-simo valor de la variable predictora,

    iy : Estimacin del promedio de Y dado el i-simo valor de X en la muestra,

    10y son las estimaciones de los parmetros con base en la informacin muestral,

    ei: i-simo error muestral.

    Estimacin de 10 y

    Uno de los mtodos de estimacin de los parmetros es el de mnimos cuadrados, queconsiste en encontrar los estimadores que hacen mnima la suma de cuadrados de los

    errores, es decir aquellos valores que hacen ms pequea

    n

    1i

    n

    1i

    2

    ii2i Y

    Y .

    n

    1i

    n

    1i

    2i10i

    2

    ii

    n

    1i

    2i xYY

    Y . Derivando e igualando a cero se obtiene:

    n

    1i

    i10i0

    n

    1i

    2i

    xY2

    = 0 y

    n

    1i

    i10ii1

    n

    1i

    2i

    xYX2

    = 0.

    Al simplificar las dos ecuaciones anteriores y distribuir las sumas se tiene:

    n

    1i

    n

    1i

    i10i xnY

    n

    1i

    n

    1i

    n

    1i

    2i1i0ii xxYx

    Las dos ecuaciones anteriores se conocen como ecuaciones normales. Dadas lasrealizaciones n,21 y,y,y las ecuaciones pueden resolverse para encontrar los estimados de

    los parmetros:

    x

    y

    xy

    xny

    10

    10

    n

    1i

    n

    1i

    i10i

    n

    1i

    n

    1i

    n

    1i

    2i1i1ii x

    xxyyx

  • 5/28/2018 CURSO GEOESTADISTICA

    46/49

    46

    n

    1i

    n

    1i

    n

    1i

    2i1i

    n

    1i

    i

    1

    n

    1i

    i

    ii xx

    n

    x

    n

    y

    yx

    n

    1i

    n

    1i

    2i1

    2

    n

    1i

    i

    1

    n

    1i

    i

    n

    1i

    i

    ii x

    n

    x

    n

    xy

    yx

    n

    1i

    2i

    n

    1i

    ii

    n

    1i

    2n

    1i

    i

    2

    1i

    n

    1i

    n

    1i

    ii

    ii

    1

    xx

    yyxx

    n

    x

    x

    n

    xy

    yx

    i

    Se puede demostrar que los errores estndar estimados de los estimadores de los parmetroscorresponden a:

    n

    1i

    2i

    1

    xx

    ss y

    n

    1i

    2i

    n

    1i

    2i

    0

    xxn

    x

    ss , con2n

    e

    s

    n

    1i

    2i

  • 5/28/2018 CURSO GEOESTADISTICA

    47/49

    47

    Capitulo Seis

    Aplicaciones

    Esta seccin ser desarrollada durante la realizacin del curso con aplicaciones a datosgeofsicos reales. Se emplea el software de distribucin libre R en el anlisis de los datos.Por reserva con la informacin considerada no se incluyen en el texto ni los datos ni losresultados obtenidos.

  • 5/28/2018 CURSO GEOESTADISTICA

    48/49

    48

    REFERENCIAS

    Biau, G., E. Zorita, H. von Storch & H. Wackernagel. 1997. Estimation of precipitation by

    kriging in EOF space. GKSS, 97, E45.Box, G. E. P. y G.M. Jenkins. (1976). Time Series Analysis Forecasting and Control.Holden -Day, San Francisco, 575pp.

    Bogaert, P., P. Mahau & F. Beckers. 1995. The Spatial Interpolation of Agroclimatic Data.Cokriging Software and Source Code. FAO, Rome.

    Carr, J. , D. Myers y Ch. Glass.(1985). Cokriging - A Computer Program. Computers &Geosciences. 11(2), 111-127.

    Caselton , W. F. & J. V. Zidek. (1984). Optimal Monitoring Desings. Statistics &Probability Letters. 2, 223(27).

    Clark, I. 1979. Practical geostatistics. Elsevier Publishing , New York.Cressie, N. 1989. Geostatistics. The American Statistician. 43(4), 611(23).Cressie, N. 1993. Statistical for spatial data. John Wiley & Sons, New York.Curia, D. 1998. Geoestadstica Aplicada a la Geologa del Petrleo. Larriestra, Curia y

    Asociados, Buenos Aires.

    David, M. 1977. Geostatistical ore reserve estimation. Elsevier, Amsterdam.Davis J.C., Statistics and Data Analysis in Geology, Wiley, 3rd Edition, 2002, 638 p.

    Deutsh , C. V. & A. G. Journel. 1992. GSLIB: Geostatistical Software Library and UsersGuide. Oxford University Press, New York.

    Daz- Francs, E. (1993). Introduccin a Conceptos Bsicos de Geoestadstica. Memorias

    Seminario Estadstica y Medio Ambiente. Centro de Investigacin en Matemticas,CIMAT. Guanajuato, Mexico.

    Diggle, P., L. Harper y S. Simon. (1995). Geoestatistical Analysis of ResidualContamination from Nuclear Weapons Testing. Programme Abstracts of the thirdSPRUCE International Conference. Merida, Mexico.

    Digby, P & R. Kempton. 1992. Multivariate Anlisis of Ecological Communities.Chapman and Hall, Londres

    Englund, E. & A. Sparks. 1988. GeoEAS, Users Guide. EPA, Las Vegas.Evangelos A. & G. T. Flatman. 1988. On sampling nonstationary spatial autocorrelated

    data. Computers and Geosciences, 14, 5, 667-686.Fox, J. 1984. Linear statistical models and related methods with applications to social

    research. John Wiley & Sons, New York.Gamma Desing. 1995. GS+. Geostatistical software for the agronomic and biological

    science, version 2.3. Plainwell, Michigan.Garmin International, Inc. 1993. Garmin communication & navigation. GPS 100 SRVY II

    personal surveyor. Owners manual. Lenexa, U. S. A.Giraldo, R., W. Troncoso, J. E. Mancera & N. Mndez. 2000. Geoestadstica: Una

    Herramienta para la Modelacin en Estuarios. Rev. Acad. Col. Ciencias. 24(90):59-72.

  • 5/28/2018 CURSO GEOESTADISTICA

    49/49

    49

    Hair, J. F., R. E. Anderson, R. L. Tatham y W. C. Black. (1995). Multivariate DataAnalysis With Readings. Fourth edition. Prentice Hall, New Jersey.

    Hoaglin, D. F., F. Mosteller & J. Tukey. 1983. Understanding Robust and Exploraory DataAnlisis. John Willey & Sons, New York.

    Isaaks, E. & R. M. Srivastava. 1989. Applied geostatistics. Oxford University Press, New

    York.Journel, A.G. y Ch. J. Huijbregts. 1978. Mining Geostatistics, Academics Press, NewYork. 590 pp.

    Krige, D. G. 1951. A statistical Approoach to Some Basic Mine Valuation Problems on theWitwatersrand. Journal of the Chemical, Metallurgical and Mining Society of Southfrica, 52: 119-139.

    Link, P. 1992. Basic Petroleum Geology. OGCI Publications, Oil & Gas Consultants IncMatheron, G. 1962. Traite de Geostatistique Apliquee, Tome I. Memoires bureau de

    Recherches Geologiques et Minieres, N 24. Editions Bureau de Recherche et Minieres,Paris.

    Mardia, K. y C. Goodall, C. 1990. Spatial - Temporal Analysis of MultivariateEnvironmental Monitoring Data. LATEX documents for the North - Holland Series inStatistics and Probability.

    McBratney, A. B., Webster, R. and Burgess, T. M. The design of optimal sampling

    schemes for local estimation and mapping of regionalized variables I, Computers and

    Geosciences, 7(4), 331-334, 1981Mood, A., F. A. Graybill & D. C. Boes. 1974. Introduction to the Theoty of Statistics.

    McGraw-Hill, New York.Morton, T, Thompson, A. and M. Woods. 1997. Development Geology Reference Manual,

    AAPG Methods in Exploration No. 10.Myers, D. E. 1987. Optimization of Sampling Locations for Variogram Calculations. Water

    Resources Research. 23(3), 283(93).Petitgas, P. 1996. Geostatistics and their applications to fisheries survey data 5: 114-142.

    In: B. A. Megrey & E. Mosknes, (E). Computers and fisheries research. Chapman-Hall, Londres.

    Samper, F.J. & J. Carrera 1990. Geoestadstica. Aplicaciones a la HidrogeologaSubterrnea. Centro Internacional de Mtodos Numricos en Ingeniera. UniversitatPolitcnica de Catalunya. Barcelona, Espaa. 484 pp.

    Stanley; T. Practical Statistics for Petroleum Engineers. Petroleum Publishing Company,Tulsa 1973.

    Wackernagel. H. 1995. Multivariate geostatistics. An introduction with applications.Springer-Verlag, Berln.

    Warrick, A. W., D. E. Myers & D. R. Nielsen. 1986. Geostatistical methods applied to soilscience. Methods of soil analysis. Part 1. Physical and mineralogical methods-agronomy monograph 9 : 53 - 81.