Analiza danych środowiskowych III rok OŚ

Analiza danych środowiskowych

III rok OŚWykład 1

Andrzej Leśniak

KGIS, GGiOŚAGH

Zaprezentowanie praktycznego podejścia do

analizy danych (szczególnie danych

środowiskowych)

Zaznajomienie z podstawowymi (!!!) technikami

analizy środowiskowych danych pomiarowych

Zaznajomienie ze strategią postępowania z

własnymi zestawami danych

software

MatLab

SciLab

available on-line

1. Charakterystyka danych środowiskowych- opis probabilistyczny.

2. Aproksymacja liniowa, metoda najmniejszych kwadratów.

3. Interpolacja danych (liniowa, kwadratowa). Korekta danych.

4. Badanie okresowości danych- Analiza harmoniczna. Transformacja Fouriera.

5. Zastosowania analizy częstotliwościowej.

6. Funkcje korelacji i autokorelacji danych – zastosowania.

7. Pochodna i całka numeryczna.

8. Analizy chwilowe danych niestacjonarnych

Wykład 1

Dane i ich opis probabilistyczny

Rada na dobry początek ;-)

Jeśli coś mierzysz lub podejmujesz się interpretacji pomiarów

wykonanych przez inne osoby, dowiedz się jak najwięcej o

charakterze danych – wręcz spróbuj przewidzieć jak powinny

wyglądać. Konfrontacja Twoich wyobrażeń z rzeczywistością może okazać się bardzo cenna.

Przykład danych: Przepływ wody na rzece Hudson (USA)

Albany

wododział:

36,260 km2

źródło: Wikipedia

Hudson River

Przepływ - ilość wody przepływająca przez przekrój

koryta rzeki w jednostce czasu. Mierzony jest w m3/s.

Jakie własności powinien mieć przepływ?

Woda płynie w jednym kierunku – przepływ ma znak dodatni

Przepływ jest stosunkowo stabilny w perspektywie minut i godzin; znacznie mniej w perspektywie dni i tygodni

Przepływ wzrasta w okresach opadów deszczu

Jak mierzyć przepływ?

Przepływ przez przekrój poprzeczny o wymiarach w×h×v

w jednostce czasu

Typowa wielkość przepływu?

przepływ = w×h×v = 1000 m3/s

Jak powinny wyglądać zmiany przepływu w czasie?

Spróbujmy naszkicować, zakładając kilkudniowy okres opadów w tym

analizowanym okresie czasu.

czas (dni)

Rzeczywisty przepływ w rzece Hudson na wysokości

Albany

(czas w dniach począwszy od

Jan 1, 2002)

czas (dni)

Jak można scharakteryzować własności

opadów na danym terenie?

Ich wielkość jest liczbą dodatnią

Skala czasu – stosunkowo krótka –godziny do dni

potem dni bez opadów

Opady maksymalnie do kilkunastu – kilkudziesięciu centymetrów na dobę

Przepływ

czas (dni)

Okres opadów

Szeregi czasowe są podobne ale nie identyczne – nawet ich maksima są w różnych

miejscach.

Największy przepływ

Największy opad

Dlaczego?

Opady deszczu w Albany NY

(A) Przepływ

(B) Opady

czas (dni)

Deszcz w Albany nie jest

jedynym czynnikiem

wpływającym na wielkość przepływu w tym mieście

Wielkość przepływu zależy nie tylko od wielkości opadów w Albany ale w całym

dorzeczu.

Szeroki impuls – szybki wzrost,

wolniejszy spadek

Wąski impuls

Dlaczego?

Opady deszczu w Albany NY

(A) Przepływ

(B) Opady

czas (dni)

Jak przewidzieć wielkość przepływu na

podstawie opadów?

Potrzeba trochę czasu by woda z

opadów spłynęła do

rzeki podnosząc jej

poziom

Wzrost poziomu w dniu dzisiejszym został wywołany przez opady mające miejsce w czasie kilku

poprzedzających dni

Sformułowanie matematyczne:

przepływ d jest średnią ruchomą z opadów p w ciągu

kilku ostatnich dni

Idea :

Przepływ w danym punkcie jest opóźniony w stosunku do opadów,

z uwagi na czas spływu wód opadowych z lądu do koryta rzeki

dzisiaj i

poprzednie dni

dla danego dniap

dla danego dnia

przepływsuma opady

dzisiajd

wagi w

średniej

ruchomej

przykład

d5 = w1p5 + w2p4 + w3p3 ...

przepływ dla dnia iopad w

przeszłości

Podumowując – adekwatność modelu średniej ruchomej jest ukryta we

właściwym doborze wag w1 w2 w3 w4 ...

expexpT

Tylko najbliższe w czasie opady mają wpływ na wielkość przepływu.

Wartość wag może spadać ekspotencjalnie wraz ze wzrostem odległości w czasie

Wagi są dobierane metodą prób i błędów (lub w inny, bardziej wyrafinowany sposób).

Wynik predykcji

Prawdopodobieństwo i błąd pomiarowy

Jak zastosować rachunek prawdopodobieństwa i statystykę matematyczną do

analizy danych środowiskowych a w szczególności do ilościowego opisu błędów

Błędy pomiarowe najłatwiej analizować (i zrozumieć) używając aparatu

matematycznego.

d=?d=?d=1.04 d=0.98

nieokreślone nieokreślone

Zmienne losowe mogą cechować się pewną systematycznością (tendencją) – mogą

przyjmować pewne wartości częściej niż inne.

d = 0 d =1 d =2 d =3 d =4

Przykład – d = liczba atomów deuteru w cząsteczce metanu. d jest zmienną losową.

Systematyczność zmiennej losowej d może być scharakteryzowana rozkładem

prawdopodobieństwa P(d). Wartości w % (0% - 100%) lub w ułamkach (0.0-1.0 )

P0.0 0.5

0 0.10

1 0.30

2 0.40

3 0.15

4 0.05

Cztery różne sposoby wizualizacji prawdopodobieństwa

Prawdopodobieństwa sumują się do 100% lub do 1.0.

Jeśli zmienna losowa jest ciągła może przyjmować wartości z zadanego przedziału

(skończonego lub nieskończonego) w sposób ciągły.

kość

d=2.37

area, A

Szare pole

powierzchni określa

prawdopodobieństwo,

ze rybka znajduje się

między głębokościami

d1 i d2.

Prawdopodobieństwo, że dznajduje się pomiędzy d1 i d2

Oczywiście

Jak scharakteryzować rozkład prawdopodobieństwa?

Wartość „centralna” (maksymalna), szerokość rozkładu ???

Istnieje kilka propozycji sposobów charakteryzowania kształtu.

Zacznijmy od sposobów określania wartości typowej rozkładu (wartości oczekiwanej).

median

dmedian

area=50%

Wartość maksymalna

medianaWartość średnia

histogram

dsRozkład

prawdopodobieństwa

step 1: sposób obliczania wartości średniej

step 2: jeśli zamiast danych posługujemy się histogramem

step 3: jeśli zastąpimy histogram rozkładem prawdopodobieństwa

≈ sNs

≈ s P(ds)

Dla zmiennej

ciągłej

Obliczenie szerokości rozkładu

użyj wartości średniej dla dtypical

Pierwiastek z wariancji jest de facto miarą szerokości rozkładu tj. dσ

q(d) = (d-dtypical)2

Więc funkcja q(d)p(d) ma:

małą wartość jeśli większość jest skupiona blisko dtypical , czyli

rozkładp(d) skupiony (wąski)

dużą wartość jeśli większość jest zlokalizowana daleko od

dtypical , czyli rozkładp(d) jest szeroki

Wielkość pola powierzchni q(d)p(d) ilościowo charakteryzuje

szerokość rozkładu prawdopodobieństwa

Dwa typowe rozkłady prawdopodobieństwa

Jednorodny:

dmin dmax

1/(dmax- dmin)

impuls prostokątny

0 10 20 30 40 500

funkcja dzwonowa

(gaussowska)

Normalny:

Wariancja równa 2

d =10 30

40σ =2.5 105 20 4015 20 25

Ta sama wariancja

różne wartości średnie

Ta sama wartość średnia

różne wariancje

Przykłady zróżnicowania dla normalnego rozkładu prawdopodobieństwa

Funkcje zmiennej losowej

zawierające

błąd

pomiarowy

przetworzenie

danych

wnioskowanie

w warunkach

losowych

wartość pomierzona djednorodny p.d.f.

m = d2jeden wynik,

wartość modelu, m

Funkcje zmiennej losowej

dane: p(d) reguła m=d2 p(m) ?

=wartość bezwzględną dodano by zabezpieczyć

się przed przypadkiem gdy m2<m1

metoda:

gdy m=d2 wówczas d=m1/2

przedział:d=0 corresponds to m=0

d=1 corresponds to m=1

p.d.f.: p(d) = 1 więc p[d(m)]=1

pochodna: ∂d/ ∂ m = (1/2)m-1/2

w rezultacie:

p(m) = (1/2) m-1/2

w przedziale 0<m<1

p(d) p(m) Jeśli p(d) jest stałe to

p(m) jest skoncentrowane

wokół m=0

Średnia d, i wariancja σd2

Jaka będzie m oraz σm2

dla liniowej zmiany m=cd ?

Dla średniej m=cd ,

dla wariancji σm2 =c2σd

Wyniki niezbyt realistyczne –

jeden pomiar, jedna wartość.

Analiza danych środowiskowych III rok OŚ

Documents

Organizacja bazy danych - ploug.org.pl · 1 ORACLE PL/SQL Organizacja bazy danych Baza Danych Przestrzeń Tabel Segment Ekstent Blok Danych Plik Danych Blok Danych …

Oś 1 Modernizacja gospodarstw rolnych

Opracowanie programu „Opłaty” wspomagającego wyliczanie opłat środowiskowych

Hurtownie danych - IITiSolga/projekty/hurt.pdf · ... odczyt zródło´ wych danych z operacyjnych baz danych, ... Projekt logiczny hurtowni danych ... Hurtownie danych Rozproszone

Oś 3 Tworzenie i rozwój mikroprzedsiębiorstw

Sieć ośrodków wsparcia dla osób z zaburzeniami ... · Rozwój sieci środowiskowych domów samopomocy w latach 2000-2016 ... Kwoty przeznaczone na funkcjonowanie Środowiskowych

Standardy w środowiskowych domach samopomocy założenia · w sprawie środowiskowych domów samopomocy ... oraz wpływają korzystnie na jej funkcjonowanie oraz ... Standardy w

Historia baz danych, hurtowni danych oraz modeli danych (w ...bcpw.bg.pw.edu.pl/Content/5967/Historia-baz-danych-oprogr.pdf · Historia baz danych, hurtowni danych oraz modeli danych

Rozbudowa infrastruktury informatycznej gromadzenia, przetwarzania i analizy danych środowiskowych

Oś 3 Tworzenie i rozwój mikroprzedsiębiorstw

Podstawową zasadą konstrukcyjną, stanowiącą oś kon˛iktu

Metody Badań śRodowiskowych

Spółdzielnia socjalna „Centrum usług środowiskowych”

nr 42/03/OŚ/2021 P4-W

LIFE+ Instrument Finansowy na rzecz innowacji środowiskowych

Oś Leader małe projekty listopad 2009

Oś priorytetowa I Konkurencyjna i innowacyjna gospodarka

Ocena ryzyka nieosiągnięcia celów środowiskowych przez zza … · Ocena ryzyka nieosiągnięcia celów środowiskowych przez jednolite części wód wraz z analizą konieczności

Oś 3 Różnicowanie w kierunku działalności nierolniczej

nr 60/03/OŚ/2021 P4-W