Download pdf - Modelowanie i Analiza Danych Przestrzennych w Sejsmologii ...home.agh.edu.pl/~lesniak/wyklady/Wyklad_1.pdf · Procesy punktowe Zestaw danych punktowych to obraz obiektów / wydarzeń

Modelowanie i Analiza Danych Przestrzennychw Sejsmologii i Sejsmometrii

Andrzej LeśniakKatedra Geoinformatyki i Informatyki StosowanejAkademia Górniczo-Hutnicza w Krakowie

Wykład 1

Procesy punktowe

Zestaw danych punktowych to obraz obiektów / wydarzeń wraz z ich lokalizacją w

regionie badania.

Punkty mogą reprezentować drzewa, gniazda zwierząt, epicentra trzęsień Ziemi,

lokalizacje przestępstw, miejsca zamieszkania określonej grupy osób,

położenie nowych przypadków grypy, rozkład galaktyk, itp.

Punkty mogą być usytuowane na powierzchni dwuwymiarowej (2D) lub na powierzchni

Ziemi bądź w 3D, itd. Mogą być również punktami w czasoprzestrzeni (np. epicentrum

trzęsienia Ziemi o określonym miejscu i czasie powstania).

2

Kiedy dane można traktować jako proces punktowy?

Rozkład obiektów może być traktowany jako proces punktowy jeśli ich rozkład jest

przypadkowy (lokalizacje punktów, liczba punktów, są losowe) i rozkład jest

obserwacją lub "odpowiedź" układu. Realizacja procesu punktu jest

nieuporządkowanym zestawem punktów, więc punkty nie mają określonego porządku

(chyba że istnieją markery bądź znaczniki – np. czas, do nich dołączone).

Przykład Płytka krzemowa jest sprawdzane pod kątem wad na powierzchni kryształu i

lokalizacje wszystkie wady są rejestrowane.

Rozkład wad może być analizowany w dwóch wymiarach jako proces punktowy, przy

założeniu, że wady są punktowe. Jesteśmy zainteresowani intensywność wad, rozstaw

między wadami itp

Przykład Wstrząsów wtórne trzęsienia Ziemi w Japonii są wykrywane, a ich szerokość,

długość i czas wystąpienia są rejestrowane.

Może to być analizowane jako czasoprzestrzenny proces punktowy (gdzie przestrzeń

jest dwuwymiarowy lub jest powierzchni Ziemi). Jeżeli czasy występowanie są

ignorowane, to staje się przestrzennym procesem punktowym.

Procesy punktowe

3

4

Sejsmiczność Europy – Rozkład epicentrów wstrząsów w okresie 2010 roku

Przykład

Rekina biały (samica Lydia)

został „wzbogacony” o nadajnik

satelitarny. W ciągu

kilku tygodni jego lokalizacja

jest zgłaszana raz na dobę. Te

punkty są nanoszone na mapę.

Położenia mogą być traktowane

jako realizacja

czasoprzestrzennego procesu

punktowego. Proces ten budują

pojedyncze punkty w

izolowanych punktach

czasowych. Te dane powinny

być traktowane jako bardzo

rzadko spróbkowana realizacja

ciągłego toru i analizowane przy

użyciu innych metod [które,

niestety, są stosunkowo słabo

rozwinięty] .

Procesy punktowe

5

Przykład Rozmieszczenie drobnych

przestępstw, które miały miejsce w

ubiegłym tygodniu rozmieszczone

na mapie Chicago.

Obraz może być analizowany jako

realizacja procesu punktowego.

Jesteśmy zainteresowani

intensywnością (skłonność do

wystąpienia zbrodni), wszelkimi

zmianami przestrzennymi w

intensywności, klastrami

przestępstw itp. Jedną kwestią

dyskusyjną jest czy zapisane

przestępstwa mogą zdarzyć się w

dowolnym miejscu przestrzeni

dwuwymiarowej, czy są one w

rzeczywistości ograniczone do

miejsc na ulicach (tworząc w ten

sposób proces punktowy na sieci

jednowymiarowej).

Procesy punktowe

6

Sformułowanie ścisłe:

Zakładamy, że proces punktowy X (w tzw. „modelu standardowym”) rozciąga się w

całej przestrzeni 2D lecz jest obserwowany w skończonym oknie W. Wewnątrz okna

obserwowane są dane których kolejność jest nieistotna:

( ) 0,,,, 21 ≥∈= nWxxxx inKx

Okno W jest ustalone i znane (!). Naszym celem jest znalezienie zależności

pomiędzy obiektami obserwowanymi w oknie W.

Położenie okna jest istotne ponieważ

zakładamy, że znane są wszystkie

miejsca, gdzie są ulokowane badane

obiekty jak również miejsca gdzie ich na

pewno nie ma.

W analizie współzmiennych procesów

musimy mianowicie brać pod uwagę

położenia obiektów obu procesów w

punktach o różnej lokalizacji

przestrzennej.

Procesy punktowe

7

Intensywność

Kiedy analizujemy dane liczbowe, często zaczynamy od obliczenia wartości średniej z

próby. Analogicznie do średniej lub przewidywanej wartości zmiennej losowej dla

procesu punktowego mówimy o intensywności.

Intensywność (ang. intensity) to średnia gęstość punktów (oczekiwana liczba

punktów na jednostkę powierzchni). Intensywność może być stała (jednorodna) lub

może się zmieniać w zależności od lokalizacji (intensywność niejednorodna).

Procesy punktowe – intensywność procesu

8

Jeśli proces punktowy X jest jednorodny to dla każdego podregionu B przestrzeni

dwuwymiarowej oczekiwana liczba punktów w B jest proporcjonalna do pola

powierzchni B:

Współczynnik proporcjonalności λ jest nazywany intensywnością.

( )( ) ( )BareaBN ⋅=∩ λXE

Należy rozróżnić rozkład o intensywności jedno- i niejednorodnej od zależności

(statystycznej) między punktami w przestrzeni. Możemy powiedzieć, że punkty są

rozłożone niezależnie od siebie (przypadkowo) lub regularnie bądź w klastrach.


9

Jeśli wiemy, że proces punktowy jest jednorodny, to empiryczna gęstość punktów,

( )( )Warea

xn=λ

jest nieobciążonym estymatorem prawdziwej intensywności λ.

Na ogół, intensywność procesu punktowego zmienia się w zależności od miejsca.

Załóżmy, że spodziewana liczba punktów w małym regionie o obszarze du wokół

lokalizacji u jest równa . W tym wypadku jest funkcją intensywności procesu

spełniającą równanie:

duλ ( )uλ

( )( ) ( )duuBNB

∫=∩ λXE

dla każdego podobszaru B.


10

W niektórych wypadkach obserwujemy osobliwe zgrupowaną intensywność (np

epicentrum trzęsień Ziemi zagęszczone wzdłuż linii uskoku) tak, że funkcja

intensywności nie istnieje. Możemy wówczas posługiwać się „miernikiem

intensywności” o postaci:

( ) ( )( )BNB ∩=Λ XE

zakładając, że wartość oczekiwana jest skończona dla 2

R⊂B

Jeśli podejrzewamy, że intensywność nie jest jednorodna, funkcja intensywność

lub miernik intensywności można oszacować nieparametrycznymi technikami

takimi jak szacowanie lokalne (obliczenia w kwadratach) bądź użycie funkcji

jądrowych.

W pierwszej z metod dzielimy obszar na równe podobszary

w kształcie kwadratów i zliczamy obiekty które znalazły się w każdym podobszarze:

Jest to nieobciążony estymator miernika intensywności

nBBBB K,,, 321

( ) nkBXnn kk ,,1 K=∩=( )

kBΛ


11

Jądrowy estymator funkcji intensywności jest z kolei równy:

gdzie jest dowolną funkcją jądrową (dowolną funkcją gęstości

prawdopodobieństwa) zaś

( ) ( ) ( )∑=

−=n

k

ixuueu1

~κλ

( ) ( )dvvuueX

∫ −=−

κ1

( ) ( ) ( ) ( )dvvvuueuX

λκλ ∫ −=*

( )uκ

jest funkcją korygującą efekt obciążenia estymatora efektami związanymi z

brzegiem. Oczywiście jest nieobciążonym estymatorem uśrednionej wersji

estymatora intensywności danej wzorem:

( )uλ~

Wybór konkretnego jądra wygładzania (funkcji gęstości) zawsze wiąże się z

kompromisem między wielkością obciążenia i wariancji.


12

Procesy punktowe – jądrowy estymator uśredniający

W wypadku obliczeń przedstawionych w ramach bieżącego wykładu używana

będzie kwadratowa funkcja jądrowa:

( ) ( ) ( )

−∈−=

reszta

udlauu

0

1,113 22

πκ

gdzie dla u=(x,y) :

222yxu +=

( ) ( )∑

=

−=

n

k

i

h

xu

h

ueu

12

~κλ

Jeśli chcemy sterować szerokością

f. jądrowej wzór na funkcję

intensywności będzie miał postać:

dla małych h wygładzenie będzie mniejsze (będą występować impulsy) dla dużych h

wygładzenie (rozmycie) będzie większe13

Estymacja funkcji intensywności procesu

punktowego odbywa się poprzez zliczanie

obiektów w podobszarach.

Wynik będzie w sposób istotny zależał od

wielkości obszarów.

Nie ma jednoznacznej odpowiedzi jaka

powinna być gęstość aby wynik estymacji był

wiarygodny.


14

Wynik estymacji funkcji intensywności procesu

punktowego dla okien o wielkości 5, 10 i 20 (w

jednostkach umownych)


15

Wynik estymacji funkcji intensywności procesu

punktowego dla okien o wielkości 5, 10 i 20 (w

jednostkach umownych) .

Mapa izolinii.


16

Przykład analizy procesu punktowego – występowanie drzewa Beilschmiedia w lesie

tropikalnym


17


18

Intensywność procesu (kolor) wykreślona z użyciem funkcji jądrowych o założonej

szerokości.


19

Inny sposób prezentacji – w 3D, bez kolorów

0.002

0.002

0.0

02

0.004

0.0

04 0.006

0.006

0.0

06 0

.008

0.008

0.0

08 0.01

0.01

0.012

0.012

0.012

0.0

14

0.014

0.014

0.0

16

0.016

0.018


20

Inny sposób prezentacji – mapa izolinii w 2D, bez kolorów

Często chcemy wiedzieć, czy funkcja intensywności dla pewnego rozkładu obiektów

(punktów) zależy od wartości innej zmiennej (tzw. zmiennej towarzyszącej).

Dla przykładu, czy intensywność rozkładu punktów bei (drzewa w tropikalnym lesie

deszczowym) pozostaje w jakiejkolwiek relacji z wysokością nad poziom morza bądź

np. z nachyleniem stoków. Interesujące jest ustalenie czy drzewa wolą rosnąć na

stromym czy na płaskim terenie oraz czy wolą konkretnej wysokości n.p.m. ?


21

Nachylenie

Wysokość n.p.m.

Obiekty (drzewa) poddawane zliczaniu


22

W metodzie liczenia w kwadratach , de facto każdy wybór kształtu do obliczeń jest

dopuszczalny. Z teoretycznego punktu widzenia nie muszą to być prostokąty o równej

powierzchni i możemy te regiony w dowolny sposób kształtować.

Szacowanie tego typu jest bardziej przydatne, jeśli wybieramy kształt obszarów w

sposób jaki nam najbardziej odpowiada. Możemy na przykład dobrać kształty

obszarów w których będziemy prowadzić zliczanie tak, by odzwierciedlały one kształty

na obrazie stowarzyszonym.

Dla tropikalnych lasów deszczowych, możemy na przykład podzielić obszar badań na

kilka podregionów związanych z wielkością nachylenia terenu.

W zamieszczonym poniżej przykładzie dzielimy mapę gradientu (wielkości nachylenia

stoków) na cztery obszary o równej powierzchni – 4 kwantyle (!) – każdy zawierający

teren o podobnym nachyleniu.

0% 25% 50% 75% 100%

0.00086633 0.03997179 0.06202988 0.11295320 0.32847670

min max

Następnie dokonujemy zliczenia obiektów w każdym obszarze.


23

Granice wartości dla kwantyli

nachylenia terenu (arctg kąta

nachylenia)

Wniosek:

Drzewa preferują

obszary o największym

nachyleniu.


24

Załóżmy, że intensywność procesu punktowego jest funkcją współzmiennej wielkości

Z. Dla dowolnej wartości argumentu u (położenie – współrzędne geograficzne), niech

będzie intensywnością procesu punktowego zaś Z(u) będzie wartością

współzmiennej. Następnie zakładamy że zależność ma postać:

( )uλ

( ) ( )( )uZu ρλ =

gdzie jest to funkcją, którą chcemy znaleźć mówiącą nam, jak intensywność

punktów zależy od wartości współzmiennych.

Wygładzanie z użyciem funkcji jądrowych może być stosowane w celu oszacowania

poszukiwanej funkcji za pomocą metod rozkładu względnego lub ryzyka względnego.

( )Kρ

Obok przedstawiono zależność

intensywności występowania

drzew od wielkości nachylenia

terenu.

Na płaskim terenie (slope <0.05 )

prawdopodobieństwo znalezienia

drzew jest niewielkie.


25

( ) ( )( )uslopeu ρλ =

W analizach przestrzennych istotnym zagadnieniem jest wzajemne położenie różnych

obiektów, np. obiektów punktowych lub obiektów liniowych. Można np. zapytać jaka

jest odległość obiektów punktowych od najbliższego obiektu liniowego.

Konkretnie – punktami zaznaczono położenie zwiększonej mineralizacji miedzi zaś

liniami prostymi lineamenty geologiczne (głównie pokrywające się z uskokami).

Geneza złóż miedzi wiąże występowanie tych złóż z bliskim sąsiedztwem uskoków.

Procesy punktowe – analiza położeń

26

Analiza związku występowania rud miedzi z siecią uskoków wymaga stworzenia mapy będącej

funkcją współrzędnej przestrzennej u(x,y). Niech mapą tą będzie mapa Z(u) odległości dowolnego

punktu u od najbliższego uskoku.

Obok przedstawiono wykres gęstość

występowania okruszcowania miedzią w

zależności od odległości od uskoku.

Procesy punktowe – analiza położeń

27

Modele Poissona

Zajmiemy się analizą rozkładu punktów w obszarze X. Poziomem odniesienia dla dalszych

analiz będzie całkowicie losowy rozkład tych punktów posiadający stałą intensywność λ.

Będziemy mówić, że punkty z przestrzeni X są jednorodnym procesem Poissona o intensywności λ

jeśli:- Liczba punktów w każdym wybranym podregionie B jest zmienną losową o rozkładzie Poissona

- Wartość oczekiwana tej liczby punktów jest równa

- Jeśli B1 i B2 są rozłącznymi podobszarami X to i są niezależnymi z.los.

- Jeśli to punkty te są niezależne i jednorodnie rozmieszczone w B.

( )BXN ∩

( )[ ] ( )BpoleBXN ⋅=∩ λE

( )2BXN ∩( )1BXN ∩

( ) nBXN =∩

28

Rozkład Poissona –definicja w statystyce klasycznej

( )!

,k

ekf

k λλλ

−

=

Rozkład Poissona – jednowymiarowy - prawdopodobieństwo szeregu wydarzeń mających miejsce w

określonym czasie (przestrzeni, powierzchni…), gdy te wydarzenia występują ze znaną średnią

częstotliwością i czas wystąpienia konkretnego zjawiska jest niezależny od czasu jaki upłynął od

zajścia poprzedniego zjawiska.

Dla stałej częstotliwości (intensywności) λ, prawdopodobieństwo,

wystąpienia dokładnie k zjawisk, gdzie k jest nieujemną liczbą

całkowitą, k = 0, 1, 2, ...) jest równe

k

f(k

,λ)

29

Test zgodności χ2 – prezentacja procedury

Jest to test nieparametryczny weryfikujący hipotezę dotyczącą rodzaju rozkładu

badanej cechy w populacji nie precyzując parametrów tego rozkładu. Statystyka jaką

tu stosujemy ma rozkład asymptotyczny χ2. Weryfikujemy hipotezę H0: dystrybuantą

badanej cechy jest F0(x), dla zmiennej ciągłej, skokowej bądź dyskretnej.

Procedura:

1. Tworzymy szereg rozdzielczy

2. Dzielimy go na k klas z których każda zawiera kolejno ni próbek i=1...k,

3. Obliczamy z rozkładu hipotetycznego teoretyczną liczebność

poszczególnych prób w tych samych k klasach ti=npi i=1...k,

4. Jeżeli hipoteza H0 jest prawdziwa to pomierzone liczebności w klasach są zbliżone

do teoretycznych; miarą rozbieżności jest wartość:

która asymptotycznie ma rozkład chi – kwadrat o k-1 stopniach swobody.

5. Na poziomie istotności α zbiorem krytycznym jest przedział Q = [h1- α,∞) gdzie

h1- α jest kwantylem rzędu 1 - α rozkładu chi-kwadrat o k-1 stopniach

swobody czyli dla �2(�1,�2,…,��) ≥ h1- α hipotezę odrzucamy, a dla

�2(�1,�2,…,��) < h1- α nie ma podstaw do odrzucenia hipotezy

∑=

=k

i

inn1

∑=

=k

i

inpn1

( )∑

=

−=

k

i i

ii

np

npn

1

2

2χ

30

Planar point pattern: 86 points window: rectangle = [0, 153] x [0, 95] feet

31

Test χ2 Pearsona

W poszczególnych podobszarach

podano wartości – zliczoną,

oczekiwaną i rezyduum

(odchyłkę) Pearsona.

Chi-squared test of CSR using quadrat counts Pearson X2 statistic data: nzchop X2 = 5.0769, df = 5, p-value = 0.8131Wartość X2 jest równa wartości

statystyki testowej χ2.

Wartość „p-value” to liczba

określająca na jakim minimalnym

poziomie istotności podejmowana

jest decyzja o odrzuceniu hipotezy

testowej H0 dla obserwowanych

danych.

Wartość p-value = 0.8131 oznacza, że

jeżeli odrzucimy hipotezę H0 o tym że

rozkład jest rozkładem Poissona to

prawdopodobieństwo, że jest to błąd

wynosi 0.8131 (czyli prawie pewność).

Wobec tego, w tym wypadku, brak

podstaw do odrzucenia hipotezy o

niejednorodności rozkładu punktów. 32

Test Kołmogorowa - Smirnowa

Weryfikujemy następującą hipotezę H0: Dystrybuantą badanej cechy jest F0(x),

gdzie x jest zmienną typu ciągłego (w naszym przypadku np. współrzędną X lub Y

punktu, lub innym typem pola ciągłego).

Test przebiega następująco:

1. Wyniki n-elementowej próby (np. współrzędne X punktów) układamy w szereg

rozdzielczy i tworzymy dystrybuantę empiryczną Fn(x)

2. Dla tych samych wartości x obliczamy dystrybuantę teoretyczną F0(x)

3. Obliczamy wartość statystyki λ Kołmogorowa :

4. Jej obszar krytyczny jest prawostronny, gdyż duże wartości λ świadczą przeciw

hipotezie H0.

Obszar krytyczny jest postaci: gdzie są

krytycznymi wartościami statystyki

podanymi dla określonych α i n z tablic statystycznych.

5. Porównujemy wartość empiryczną statystyki z obszarem krytycznym Q.

Jeśli należy do obszaru krytycznego to hipotezę H0 odrzucamy, jeśli nie to

nie ma podstaw do jej odrzucenia.

( ) ( )xFxFD nx

n 0sup −=

{ }αnnn DDDQ ≥= : αnD

nD

nD

nD

33

Test Kołmogorowa-Smirnowa

Jako wartości do testu można używać dowolnego

rastru, funkcji dwóch zmiennych bądź na przykład

współrzędnych X bądź Y (jak w tym przypadku) .

Wynik testu dla poprzednio analizowanych danych

wskazuje na brak przesłanek do odrzucenia

hipotezy o jednorodnym rozkładzie punktów w

badanym obszarze.

Porównanie testów �2 Pearsona i Kołmogorowa-

Smirnowa:

1.Dla małego n i gdy cecha ma charakter ciągły

stosujemy test K-S

2.W przypadku podziału na klasy o tym samym

prawdopodobieństwie dla badanej cechy o

rozkładzie ciągłym test Kołmogorowa wymaga

mniej licznej próby przy tej samej mocy

3. Jeżeli rozkład badanej cechy jest skokowy, to

stosujemy test �2 Pearsona

34

test K-S dla współzmiennej

Chi-squared test of CSR using quadrat counts Pearson X2 statistic data: bei X2 = 661.84, df = 3, p-value < 2.2e-16

Spatial Kolmogorov-Smirnov test of CSR in two dimensions data: covariate ‘Z’ evaluated at points of ‘bei’

and transformed to uniform distribution under CSR D = 0.19481, p-value < 2.2e-16

Analizowane poprzednio rozmieszczenie drzew w lesie tropikalnym w zależności od stopnia nachylenia stoku

może być przetestowane zarówno testem chi_kw jak i K-S. Testujemy, czy rozkład jest jednorodny przy podziale

na obszary o różnym nachyleniu stoku.

35