Tratamiento de Datos Con Gslib

Embed Size (px)

Citation preview

TRATAMIENTO DE DATOS CON GSLIB

TRATAMIENTO DE DATOS CON GSLIB

Supongamos que conocemos la realidad de un episodio de contaminacin sobre un rea de 50*50 metros cuadrados. Se considera una malla regular (gran problema de GSLIB), de 50*50 pxeles cuadrados de un metro de lado.

En primer lugar dibujamos las 2500 medidas, dispuestas en el centro de cada una de las celdas. Para ello utilizaremos el programa CSCALE.EXE, cuyo archivo de parmetros se lista a continuacin. El resultado del mismo se puede apreciar en la Figura 2.

Figura 1. Archivo de parmetros para el programa CSCALE.EXE

Parameters for CSCALE

*********************

START OF PARAMETERS:

MEDIDAS_REALES.DAT \data file

MEDIDAS_REALES. PS \output PostScript file

1 \column number

50 1.0 \nx, xsiz

50 1.0 \ny, ysiz

1 1.0 \nz, zsiz

1 1 \igrid,iz

0.0 110.0 \cmin,cmax

MEDIDAS REALES \title

ESTE \X label

NORTE \Y label

Figura 2. Campo real

Como puede observarse, la escala utilizada no es demasiado afortunada, dado que la gran mayora de los datos se concentra en valores muy pequeos. Debiera cambiarse el valor mximo de la escala (cmax) a 30, ms o menos. El resultado se presenta en la Figura 3

Puede observarse como las concentraciones ms altas se concentran en las esquinas nordeste y suroeste del dominio, siguiendo aproximadamente una diagonal a travs del mismo. Asimismo, por ser este un caso excepcional en el que conocemos la realidad, podemos conocer sus estadsticos univariados. Para llevar a cabo esta tarea, utilizaremos el programa HISTPLT.EXE, cuyo archivo de parmetros se lista a continuacin (ver Figura 4). Obsrvese que el archivo MEDIDAS_REALES.DAT no se corresponde con el usado anteriormente, dado que el programa CSCALE.EXE utiliza una geometra regular, mientras que HISTPLT.EXE no. Por tanto, debemos introducir las coordenadas del punto de medida. El histograma se presenta en la Figura 5.

Figura 3. Campo real, sin considerar los valores extremadamente altos.

Figura 4. Archivo de parmetros para el programa HISTPLT.EXE

Parameters for HISTPLT

**********************

START OF PARAMETERS:

MEDIDAS_REALES.DAT \data file

3 0 \column for variable and weight

HISTOGRAMA_REAL.PS \output PostScript file

-0.99 999999. \trimming limits

0.0 110.0 \histogram minimum and maximum

55 \number of classes

0 \1=log scale, 0=arithmetic

HISTOGRAMA Y ESTAD. REALES \title

Figura 5. Histograma de las medidas del campo real

De nuevo hemos cometido el mismo error, dado que el lmite superior del histograma se corresponde con el mximo en los datos. Si lo dibujamos cambiando ese lmite superior a 20 (la frecuencia de muestras es inapreciable a partir de este valor), se obtiene el histograma de la Figura 6.

Figura 6. Histograma de las medidas del campo real, reduciendo su lmite mximo

Obsrvese que en la figura anterior aparecen los estadsticos univariados de la variable. Estos no dependen del mximo escogido para el dibujo del histograma, ni del nmero de clases utilizadas. En este caso, se confirma lo antes dicho. Los datos reales se acomodan entorno a valores muy bajos, con una desviacin bastante baja. Esto quiere decir que el campo es bastante uniforme, como se observ en los dibujos del campo (de hecho, en el 75% de los puntos - cuartil superior -, la concentracin es menor que 2.56. No obstante, hay una serie de valores extremos que, al estudiar un episodio de contaminacin, por ejemplo, son los de mayor inters, con valores mayores que 100.

Una vez obtenida una visin global del campo real, pongamos a prueba nuestros conocimientos. Imaginemos que ahora no conocemos el campo real, sino que disponemos de 97 puntos muestreados. De esos 97, se seleccionan los de mayor concentracin y se obtienen 43 muestras adicionales entorno a ellos. Finalmente se cuenta con un total de 140 medidas. Para dibujar su posicin y su valor, utilizaremos el programa SCATPLT.EXE, cuyo archivo de parmetros se muestra en la Figura 7.

Figura 7. Archivo de parmetros para el programa SCATPLT.EXE

Parameters for SCATPLT

**********************

START OF PARAMETERS:

MEDIDAS.DAT \data file

1 2 3 \column for X, Y, and weight

MEDIDAS.PS \output Postscript file

-1.0 1.0e21 \min and max variable X

-1.0 1.0e21 \min and max variable Y

0.0 50.0 \xmin and xmax

0.0 50.0 \ymin and ymax

Medidas de dos campaas \title

El resultado de este programa se presenta en la Figura 8. Obsrvese la agrupacin entorno a ciertos puntos (como cruces). No obstante, este grfico no ofrece ninguna informacin sobre los valores de las medidas. Ciertamente, resulta ms cmodo el uso de otros programas, tipo Grapher o Surfer. El resultado del uso de Surfer se presenta en la Figura 9..

Figura 8. Disposicin y estadsticos de las medidas de las dos campaas

Figura 9. Marcados con crculo los datos del primer muestreo y con cruz los del segundo. Tamaos de smbolo proporcionales al valor de la concentracin medida. Realizada con la herramienta POSTMAP de SURFER.

No obstante, no se observan los valores de las medidas. En cambio, utilizando la herramienta CLASSED POST MAP de Surfer se obtiene el siguiente resultado (ver Figura 10). En el se observan los smbolos, con tamao proporcional al valor de la medida, as como el valor de la misma.

Figura 10. Detalle de las medidas con sus valores asociados. Realizada con la herramienta CLASSED POST MAP de Surfer.

EL hecho de usar un sistema de informacin geogrfica nos permita asimismo, dibujar mapas en color de nuestros datos, que ayudan sobremanera a la comprensin de los mismos (ver Figura 11)

Figura 11. Mapeado a color de las medidas. Realizada con la herramienta CONTOUR PLOT de Surfer.

Pese a que en ningn caso vamos a conocer la realidad del campo (si en ste), pueden compararse los dos mapas presentados en las Figuras 11 y 3. As, puede verse que las medidas reproducen aproximadamente la forma de la pluma de contaminacin.

Conozcamos ahora los estadsticos univariados de nuestras medidas. Para ello, volvemos a aplicar el programa HISTPLT, con el que obtenemos el histograma de nuestros datos. El archivo de datos se muestra en la Figura 12. Naturalmente, ahora se fijado el lmite superior del histograma a 20, por lo que se coment anteriormente. El resultado (histograma y estadsticos) se muestra en la Figura 12.

Figura 12. Archivo de parmetros para el programa HISTPLT.EXE

Parameters for HISTPLT

**********************

START OF PARAMETERS:

MEDIDAS.DAT \data file

3 0 \column for variable and weight

HISTOGRAMA_MEDIDAS.PS \output PostScript file

-0.99 999999. \trimming limits

0.0 20.0 \histogram minimum and maximum

40 \number of classes

0 \1=log scale, 0=arithmetic

HISTOGRAMA DE MEDIDAS \title

Figura 13. Histograma y estadsticos de las medidas

Como se puede observar, el hecho de considerar medidas adicionales alrededor de las de mayor concentracin, aade ruido a nuestros resultados. Comparemos los estadsticos (ver Tabla 1). As, la media es 4.35, cuando la real era de 2.58. Lo mismo ocurre con la desviacin estndar, que es 6.7, cuando la real era 5.15. El mnimo prcticamente no vara (hay tantos puntos con baja concentracin que es muy fcil muestrear uno de ellos). En general, ningn cuartil vara ostensiblemente, salvo el mximo, que cae en picado, debido a que, dada la poca densidad de puntos con muy alta concentracin, resulta difcil muestrear en uno de ellos.

Tabla 1. Comparacin de los estadsticos reales y los de las medidas

nMediaDesv. St.MnimoQ. 25Q. 50Q. 75Mximo

Reales25002.585.150.010.340.962.56102.7

Medidas1404.356.70.060.692.125.3558.32

As, resulta conveniente realizar una desagrupacin de los datos. Para ello puede procederse de dos formas distintas: 1) Rpidamente (pero muy poco elegante), considerando nicamente las 97 muestras de la primera campaa.

2) Usando el algoritmo de desagrupacin (declustering) de GSLIB. Este algoritmo calcular un peso asociado a cada medida, en funcin de su proximidad a las dems. As no se desaprovechan datos que, ciertamente, aportan informacin pero no demasiada. En zonas donde los datos estn muy agrupados (las de la segunda campaa) recibirn menor peso que zonas con poca densidad de datos.

Posibilidad 1. Considerar nicamente los datos de la primera campaa

Procedemos de igual modo, calculando el histograma y los estadsticos. Los resultados se presentan en la Figura 14 y en la Tabla 2.

Figura 14. Histograma y estadsticos de los datos de la primera campaa

Tabla 2. Comparacin de los estadsticos reales y los de las medidas totales y slo las de la primera campaa.

nMediaDesv. St.MnimoQ. 25Q. 50Q. 75Mximo

Reales25002.585.150.010.340.962.56102.7

Medidas1404.356.70.060.692.125.3558.32

M. 1C972.213.170.060.331.022.5418.78

Como se puede observar, el hecho de haber eliminado valores extremos ha hecho que los estadsticos de primer y segundo orden se parezcan ms a los reales. Sin embargo, obsrvese el mximo. ste es ahora de 18.78, an menor. Esto sugiere que las muestras de la segunda campaa deben ser consideradas. Por tanto, consideraremos la opcin 2, de desagrupamiento.

Posibilidad 2. Desagrupamiento de los datos

Para ello utilizaremos el programa DECLUS.EXE. Este programa asocia un peso a cada posicin de medida. Si el peso es 1 implica que el punto tiene una especial relevancia. El archivo de parmetros para este programa se muestra en la Figura 15.

Figura 15. Archivo de parmetros para el programa DECLUS.EXE

Parameters for DECLUS

*********************

START OF PARAMETERS:

MEDIDAS.DAT \Archivo de datos

1 2 0 3 \Columnas de x,y,z y variable

0.0 1.0e21 \Valores minimo y maximo a considerar

OUTPUT.SUM \Output con resumen

OUTPUT.OUT \Output con datos y pesos

1.0 1.0 \Anisotropia: y,z. Si sizex=10, entonces sizey=1.0*sizex

0 \0=look for min, 1 max

24 1.0 25.0 \num, min and max size

5 \num of origin offsets

Los parmetros de anisotropa marcan el tamao de las celdas. Si las celdas son cbicas (cuadradas en este caso), deben fijarse a 1.0. Las dos ltimas filas marcan donde (o mejor, hasta donde) deben buscarse agrupamientos. Tal y como est fijado, se buscan a lo largo de todo el dominio.

El resultado del programa es un archivo, de formato anlogo al de medidas, cuya ltima columna contiene los pesos asociados a cada medida. Si ahora dibujamos el histograma de los datos desagrupados, obtenemos el resultado de la Figura 16 y la Tabla 3.

Figura 16. Histograma y estadsticos de los datos desagrupados

Tabla 3. Comparacin de los estadsticos reales, los de las medidas totales, las de la primera campaa y las de ambas con los datos desagrupados.

nMediaDesv. St.MnimoQ. 25Q. 50Q. 75Mximo

Reales25002.585.150.010.340.962.56102.7

Medidas1404.356.70.060.692.125.3558.32

M. 1C972.213.170.060.331.022.5418.78

M-DES1402.524.560.060.341.192.7558.32

Obsrvese que la media en ste caso es prcticamente la real, la desviacin se parece mucho y hemos recuperado el mximo de los datos. As, queda demostrado que sta es mucho mejor opcin que la primera.

ESTIMACIN CONDICIONADA (KRIGING)

Una vez se tiene la descripcin del variograma (modelo, alcance, anisotropa, meseta y pepita), puede llevarse a cabo una interpolacin en los puntos no muestreados, en base a ese/esos variograma/s y a las medidas disponibles. Como se coment en la clase anterior, el gran problema que tiene GSLIB es el trabajo en base a una malla regular. Portanto, no vamos a realizar en los puntos que nosotros queramos, sino en el centro de gravedad de las celdas. El programa que se va a utilizar es KTB3D.EXE para realizar krigeados de variable nica. Si se desea cokrigear, deber usarse el programa COKB3D.EXE, de funcionamiento muy similar (simplemente hay que definirle las medidas de las variables secundarias y los variogramas de estas, adems de los cruzados con la primaria). El resultado de estos programas es doble. Por un lado, genera el valor de la estimacin en los centros de gravedad de los pixeles, adems de la varianza de estimacin. Por el otro, genera un archivo de debugging, en el que se lista los puntos de medida y los pesos asociados utilizados en la interpolacin de un punto determinado.

Para visualizar los resultados pueden usarse los programas CSCALE.EXE (explicado en la clase anterior) o GSCALE (para mapas de grises,d e funcionamiento anlogo). Veamos el archivo de parmetros del programa KT3D, mostrado en la Figura 28.

Figura 28. Archivo de parmetros del programa KTB3D.EXE

Parameters for KTB3D

********************

START OF PARAMETERS:

DATOS.DAT \ARCHIVO CON LAS MEDIDAS

1 2 0 3 \COLUMNAS CON X,Y,Z Y VARIABLE

-1.0e21 1.0e21 \LIMITES DE CORTE

ESTIM.OUT \ARCHIVO DE RESULTADOS

1 \NIVEL DE DEBUGGING: 0,1,2,3

CHECK.DBG \ARCHIVO DE DEBUGGING

50 0.5 1.0 \NX,XMN,XSIZ

50 0.5 1.0 \NY,YMN,YSIZ

1 0.5 1.0 \NZ,ZMN,ZSIZ

1 1 1 \PUNTOS DE DISCRETIZACIN DE UN BLOQUE

4 16 \MIN Y MAX DE DATOS PARA EL SISTEMA DE KRIGING

0 \A RETENER POR OCTANTE (0:NO SE USA)

20.0 \SEMIEJE MAYOR DE BUSQUEDA

0.0 0.0 0.0 1.0 1.0 \ANGULOS Y ANISOTROPIAS DEL ELIPSOIDE DE BUSQUEDA

0 4.35 \0=KRIGING ORDINARIO; 1=KRIG. SIMPLE + MEDIA

0 0 0 0 0 0 0 0 0 \TENDENCIA POLINOMICA (0:INACTIVA); x,y,z,xx,yy,zz,xy,xz,zy

0 \0, ESTIMAR LA VARIABLE; 1, ESTIMAR LA TENDENCIA

0 \1: CONSIDERAR DERIVA EXTERNA

5 \COL DE LA DERIVA EN DATOS.DAT (SI 1 EN LA ANTERIOR)

NADA.DAT \ARCHIVO CON LA DERIVA CELDAS DE LA MALLA

4 \NUMERO DE COLUMNA EN ESE ARCHIVO

1 0.3 \NUMERO DE ESTRUCTURAS, PEPITA

1 10.0 20.0 \TIPO, ALCANCE MAYOR,(MESETA-PEPITA)

0.0 0.0 0.0 1.0 1.0 \ANG1,ANG2,ANG3,ANIS1,ANIS2

El resultado de la ejecucin de KTB3D.EXE es doble; por un lado, se muestra en la Figura 29 los valores de la estimacin y de la varianza de estimacin que ofrece el programa.

Figura 29. Estimacin y varianza de estimacin para el archivo de parmetros anterior

KTB3D ESTIMATES WITH: Clustered 140 primary and secondary data

2

Estimate

EstimationVariance

4.693 0.791

4.041 0.642

2.885 0.539

2.255 0.538

1.622 0.537

1.066 0.533

1.200 0.621

1.394 0.738

......

Ntese que, al trabajar sobre una malla regular, debe seguirse la ordenacin de pixeles descrita en la clase anterior. Por otro lado, la Figura 30 muestra parte del archivo de debugging, correspondiente a la estimacin del primero de los pixeles

Figura 30. Extracto del archivo de debugging

BLOCK: 1 1 1 at 0.5000000 0.5000000 0.5000000

Lagrange : -0.170163970157926

BLOCK EST: x,y,z,vr,wt

2.500 1.500 0.500 3.330 0.634

5.500 1.500 0.500 0.060 0.118

0.500 7.500 0.500 12.740 0.095

0.500 8.500 0.500 6.490 0.031

1.500 8.500 0.500 20.350 -0.010

2.500 8.500 0.500 8.900 -0.015

0.500 9.500 0.500 15.770 0.049

1.500 9.500 0.500 7.560 0.016

2.500 9.500 0.500 6.260 0.021

3.500 9.500 0.500 7.920 0.062

estimate, variance 4.692778 0.7912890

El resultado grfico de la aplicacin del programa, tras ejecutar CSCALE.EXE se muestra en la Figura 31. Uno de los resultados ms importantes a remarcar es el bajo valor de los valores esperados (recurdese que el kriging no es ms que un sistema de interpolacin y que el mximo de los datos utilizados es 58). Otro resultado importante es la suavidad inherente al campo, debido al uso de ste (o cualquier otro sistema de interpolacin). Si lo que se pretende es obtener un mapa que represente la variabilidad espacial de manera menos suave, debe utilizarse un algoritmo de simulacin. Obsrvese adems que hay puntos en blanco. Los valores interpolados en dichos puntos son negativos.

La Figura 32 muestra el campo de la varianza de estimacin. Lgicamente los valores menores de varianza de estimacin son los asociados a los pixeles prximos (o que contienen) a los puntos de medida.

Figura 31. Resultado grfico del krigeado ordinario

Figura 32. Varianza de estimacin del campo krigeado

GSLIB Ayuda de la pgina: Programas

Coordinate transformation: Transformacin de coordenadas:

addcoord add coordinates to a GSLIB grid file addcoord aadir coordenadas a una red GSLIB archivo

rotcoord 2-D coordinate rotation rotcoord 2-D rotacin de coordenadas

Probability distribution weighting, transformation, and smoothing: Probabilidad de ponderacin distribucin, transformacin, y suavizado:

declus cell declustering declus celular declustering

nscore normal score transformation nscore transformacin puntaje normal

backtr back transformation from normal scores backtr transformacin de nuevo desde los resultados normales

trans general distribution transformation trans transformacin distribucin general

histsmth smooth histogram / univariate distribution histsmth histograma liso / distribucin univariante

scatsmth smooth scaterplot / bivariate distribution (see also bivplt ) scatsmth scaterplot liso / distribucin bivariada (vase tambin bivplt )

Variograms: Variogramas:

gam variogram calculation of regular grid (use vargplt to plot results) GAM clculo variograma de malla regular (uso vargplt para graficar los resultados)

gamv variogram calculation of scattered data (use vargplt to plot results) gamv clculo variograma de los datos dispersos (uso vargplt para graficar los resultados)

varmap variogram map / volume calculation (use pixelplt to plot results) varmap mapa variograma / clculo del volumen (uso pixelplt para graficar los resultados)

vmodel creates a variogram from an analytical model that can be plotted with vargplt vmodel crea un variograma de un modelo analtico que se puede trazar con vargplt

bigaus can be used to get the indicator variograms from a Gaussian or normal scores variogram bigaus se puede utilizar para obtener el variogramas indicador de una gaussiana o normal puntuaciones variograma

The "variogram type" is specified by an integer code . El tipo de variograma "" se especifica mediante un cdigo entero . The type of variogram model is specified by another integer code. El tipo de modelo de variograma se especifica por otro cdigo entero.

Kriging: Kriging:

kb2d straightforward 2-D kriging kb2d 2-D kriging simple

kt3d flexible 3-D kriging kt3d 3-D kriging flexibles

cokb3d cokriging cokb3d cokriging

ik3d indicator kriging (use postik to postprocess results) ik3d kriging indicador (uso postik a los resultados post-procesar)

Stochastic simulation: Simulacin estocstica:

draw simple Monte Carlo stochastic simulation dibujar simples Monte Carlo de simulacin estocstica

lusim LU matrix Gaussian simulation lusim LU simulacin de matriz de Gauss

sgsim sequential Gaussian simulation sgsim simulacin secuencial gaussiana

gtsim truncated Gaussian simulation (uses the result of sgsim and proportion curves) gtsim truncada simulacin gaussiana (utiliza el resultado de sgsim y las curvas de proporcin)

sisim sequential indicator simulation including categorical and continuous and Markov-Bayes (program bicalib is used to process calibration data) sisim indicador de simulacin secuencial como categricas y continuas y Markov-Bayes (programa bicalib se utiliza para procesar los datos de calibracin)

pfsim probability field simulation pfsim simulacin de campo de probabilidad

ellipsim 3-D ellipsoid simulation ellipsim D elipsoide de simulacin-3

anneal annealing-based post processing / simulation recocido de post-procesamiento de recocido / simulacin

sasim annealing-based simulation and cosimulation sasim basado en simulacin de recocido y cosimulacin

postsim is used to post process a number of simulated realizations postsim se utiliza para post procesar una serie de realizaciones simuladas

PostScript plotting: PostScript trazado:

histplt histogram and cumulative histogram histplt histograma y acumulativos histograma

probplt normal and lognnormal probability plot probplt y lognnormal probabilidad normal parcela

scatplt scatterplot scatplt diagrama de dispersin

qpplt QQ or PP plot to compare two distributions qpplt QQ o el argumento del PP para comparar dos distribuciones

locmap gray and color 2-D data location map locmap gris y el color de 2-D de datos mapa de ubicacin

pixelplt gray and color 2-D pixel map pixelplt color 2-D pxel del mapa y gris

bivplt plot a smoothed bivariate probability distribution with the marginal distributions bivplt trazar una distribucin de probabilidad bivariado alisa con las distribuciones marginales