View
235
Download
7
Category
Preview:
Citation preview
Analiza danych środowiskowych
III rok OŚWykład 1
Andrzej Leśniak
KGIS, GGiOŚAGH
Cele
Zaprezentowanie praktycznego podejścia do
analizy danych (szczególnie danych
środowiskowych)
Zaznajomienie z podstawowymi (!!!) technikami
analizy środowiskowych danych pomiarowych
Zaznajomienie ze strategią postępowania z
własnymi zestawami danych
software
MatLab
SciLab
available on-line
1. Charakterystyka danych środowiskowych- opis probabilistyczny.
2. Aproksymacja liniowa, metoda najmniejszych kwadratów.
3. Interpolacja danych (liniowa, kwadratowa). Korekta danych.
4. Badanie okresowości danych- Analiza harmoniczna. Transformacja Fouriera.
5. Zastosowania analizy częstotliwościowej.
6. Funkcje korelacji i autokorelacji danych – zastosowania.
7. Pochodna i całka numeryczna.
8. Analizy chwilowe danych niestacjonarnych
Plan
Wykład 1
Dane i ich opis probabilistyczny
Rada na dobry początek ;-)
Jeśli coś mierzysz lub podejmujesz się interpretacji pomiarów
wykonanych przez inne osoby, dowiedz się jak najwięcej o
charakterze danych – wręcz spróbuj przewidzieć jak powinny
wyglądać. Konfrontacja Twoich wyobrażeń z rzeczywistością może okazać się bardzo cenna.
Przykład danych: Przepływ wody na rzece Hudson (USA)
Albany
wododział:
36,260 km2
źródło: Wikipedia
Hudson River
Przepływ - ilość wody przepływająca przez przekrój
koryta rzeki w jednostce czasu. Mierzony jest w m3/s.
Jakie własności powinien mieć przepływ?
Woda płynie w jednym kierunku – przepływ ma znak dodatni
Przepływ jest stosunkowo stabilny w perspektywie minut i godzin; znacznie mniej w perspektywie dni i tygodni
Przepływ wzrasta w okresach opadów deszczu
Jak mierzyć przepływ?
h
w
v
Przepływ przez przekrój poprzeczny o wymiarach w×h×v
w jednostce czasu
Typowa wielkość przepływu?
10 m
100 m
1 m/s
przepływ = w×h×v = 1000 m3/s
Jak powinny wyglądać zmiany przepływu w czasie?
Spróbujmy naszkicować, zakładając kilkudniowy okres opadów w tym
analizowanym okresie czasu.
prz
ep
ływ
(m
3/s
)
czas (dni)
Rzeczywisty przepływ w rzece Hudson na wysokości
Albany
(czas w dniach począwszy od
Jan 1, 2002)
prz
ep
ływ
(m
3/s
)
czas (dni)
Jak można scharakteryzować własności
opadów na danym terenie?
Ich wielkość jest liczbą dodatnią
Skala czasu – stosunkowo krótka –godziny do dni
potem dni bez opadów
Opady maksymalnie do kilkunastu – kilkudziesięciu centymetrów na dobę
prz
ep
ływ
(m
3/s
)
Przepływ
czas (dni)
czas (dni)
Opady
Op
ad
y (
mm
)
Okres opadów
Szeregi czasowe są podobne ale nie identyczne – nawet ich maksima są w różnych
miejscach.
Największy przepływ
Największy opad
Dlaczego?
Opady deszczu w Albany NY
prz
ep
ływ
(m
3/s
)O
pa
dy
(m
m)
(A) Przepływ
(B) Opady
czas (dni)
czas (dni)
Deszcz w Albany nie jest
jedynym czynnikiem
wpływającym na wielkość przepływu w tym mieście
Wielkość przepływu zależy nie tylko od wielkości opadów w Albany ale w całym
dorzeczu.
Szeroki impuls – szybki wzrost,
wolniejszy spadek
Wąski impuls
Dlaczego?
Opady deszczu w Albany NY
prz
ep
ływ
(m
3/s
)O
pa
dy
(m
m)
(A) Przepływ
(B) Opady
czas (dni)
czas (dni)
Jak przewidzieć wielkość przepływu na
podstawie opadów?
Potrzeba trochę czasu by woda z
opadów spłynęła do
rzeki podnosząc jej
poziom
Wzrost poziomu w dniu dzisiejszym został wywołany przez opady mające miejsce w czasie kilku
poprzedzających dni
Sformułowanie matematyczne:
przepływ d jest średnią ruchomą z opadów p w ciągu
kilku ostatnich dni
Idea :
Przepływ w danym punkcie jest opóźniony w stosunku do opadów,
z uwagi na czas spływu wód opadowych z lądu do koryta rzeki
dzisiaj i
poprzednie dni
dla danego dniap
dla danego dnia
przepływsuma opady
dzisiajd
wagi w
średniej
ruchomej
przykład
d5 = w1p5 + w2p4 + w3p3 ...
przepływ dla dnia iopad w
przeszłości
wagi
Podumowując – adekwatność modelu średniej ruchomej jest ukryta we
właściwym doborze wag w1 w2 w3 w4 ...
+
=
21
expexpT
jc
T
jw j
Tylko najbliższe w czasie opady mają wpływ na wielkość przepływu.
Wartość wag może spadać ekspotencjalnie wraz ze wzrostem odległości w czasie
Wagi są dobierane metodą prób i błędów (lub w inny, bardziej wyrafinowany sposób).
+
=
30exp
10
1
3exp
jjw j
Wynik predykcji
Prawdopodobieństwo i błąd pomiarowy
Jak zastosować rachunek prawdopodobieństwa i statystykę matematyczną do
analizy danych środowiskowych a w szczególności do ilościowego opisu błędów
Błędy pomiarowe najłatwiej analizować (i zrozumieć) używając aparatu
matematycznego.
d=?d=?d=1.04 d=0.98
nieokreślone nieokreślone
Zmienne losowe mogą cechować się pewną systematycznością (tendencją) – mogą
przyjmować pewne wartości częściej niż inne.
CH
HH
H
CD
HH
H
CD
DH
H
CD
DH
D
CD
DD
D
d = 0 d =1 d =2 d =3 d =4
Przykład – d = liczba atomów deuteru w cząsteczce metanu. d jest zmienną losową.
Systematyczność zmiennej losowej d może być scharakteryzowana rozkładem
prawdopodobieństwa P(d). Wartości w % (0% - 100%) lub w ułamkach (0.0-1.0 )
P0.0 0.5
0
1
2
3
4
d
d P
0 0.10
1 0.30
2 0.40
3 0.15
4 0.05
d P
0 10%
1 30%
2 40%
3 15%
4 5%
P
Cztery różne sposoby wizualizacji prawdopodobieństwa
Prawdopodobieństwa sumują się do 100% lub do 1.0.
Jeśli zmienna losowa jest ciągła może przyjmować wartości z zadanego przedziału
(skończonego lub nieskończonego) w sposób ciągły.
0
5
głę
bo
kość
,
d=2.37
d
d1
d2
p(d)
area, A
Szare pole
powierzchni określa
prawdopodobieństwo,
ze rybka znajduje się
między głębokościami
d1 i d2.
Prawdopodobieństwo, że dznajduje się pomiędzy d1 i d2
Oczywiście
d
p(d)
d
p(d)
0
0
5
5
Jak scharakteryzować rozkład prawdopodobieństwa?
Wartość „centralna” (maksymalna), szerokość rozkładu ???
Istnieje kilka propozycji sposobów charakteryzowania kształtu.
Zacznijmy od sposobów określania wartości typowej rozkładu (wartości oczekiwanej).
0
5
10
d
15
p(d)
mode
dmode
0
10
d
15
p(d)
median
dmedian
area=50%
area=
50%
0
5
10
d
15
p(d)
mean
dmean
Wartość maksymalna
medianaWartość średnia
≈ s
d
ds
dane
histogram
Ns
dsRozkład
prawdopodobieństwa
step 1: sposób obliczania wartości średniej
step 2: jeśli zamiast danych posługujemy się histogramem
step 3: jeśli zastąpimy histogram rozkładem prawdopodobieństwa
≈ sNs
N p
≈ s P(ds)
Dla zmiennej
ciągłej
Obliczenie szerokości rozkładu
użyj wartości średniej dla dtypical
Pierwiastek z wariancji jest de facto miarą szerokości rozkładu tj. dσ
q(d) = (d-dtypical)2
Więc funkcja q(d)p(d) ma:
małą wartość jeśli większość jest skupiona blisko dtypical , czyli
rozkładp(d) skupiony (wąski)
dużą wartość jeśli większość jest zlokalizowana daleko od
dtypical , czyli rozkładp(d) jest szeroki
Wielkość pola powierzchni q(d)p(d) ilościowo charakteryzuje
szerokość rozkładu prawdopodobieństwa
Dwa typowe rozkłady prawdopodobieństwa
Jednorodny:
d
dmin dmax
p(d)
1/(dmax- dmin)
impuls prostokątny
0 10 20 30 40 500
0.02
0.04
0.06
0.08
d
2σ
funkcja dzwonowa
(gaussowska)
Normalny:
Wariancja równa 2
σ
d
d =10 30
0
40
d
0
40σ =2.5 105 20 4015 20 25
Ta sama wariancja
różne wartości średnie
Ta sama wartość średnia
różne wariancje
Przykłady zróżnicowania dla normalnego rozkładu prawdopodobieństwa
Funkcje zmiennej losowej
dane
zawierające
błąd
pomiarowy
przetworzenie
danych
wnioskowanie
w warunkach
losowych
wartość pomierzona djednorodny p.d.f.
0<d<1
m = d2jeden wynik,
wartość modelu, m
Funkcje zmiennej losowej
dane: p(d) reguła m=d2 p(m) ?
=wartość bezwzględną dodano by zabezpieczyć
się przed przypadkiem gdy m2<m1
metoda:
gdy m=d2 wówczas d=m1/2
przedział:d=0 corresponds to m=0
d=1 corresponds to m=1
p.d.f.: p(d) = 1 więc p[d(m)]=1
pochodna: ∂d/ ∂ m = (1/2)m-1/2
w rezultacie:
p(m) = (1/2) m-1/2
w przedziale 0<m<1
d
0
1
m
0
1
p(d) p(m) Jeśli p(d) jest stałe to
p(m) jest skoncentrowane
wokół m=0
Średnia d, i wariancja σd2
Jaka będzie m oraz σm2
dla liniowej zmiany m=cd ?
Dla średniej m=cd ,
dla wariancji σm2 =c2σd
2
Wyniki niezbyt realistyczne –
jeden pomiar, jedna wartość.
Recommended