View
2
Download
0
Category
Preview:
Citation preview
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Technologie InformacyjnePrzygotowanie danych
Adam Krasuski
Szkoła Główna Służby PożarniczejZakład Informatyki i Łączności
December 5, 2016
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
1 Dane tabelaryczne
2 Dane tekstowe
3 Dane sensoryczne
4 Dane multimedialne
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dane tabelaryczne
ID data # GBA pożar obiekt piętro powierzchnia1 10.02.2012 3 tak blok IV 402 12.12.2012 1 tak dom I 1203 12.10.2010 1 nie samochód - 44 15.02.2011 5 tak fabryka 0 12005 13.12.2013 2 nie śmietnik - 0,46 12.11.2012 4 tak mieszkanie VII 387 17.12.2002 1 tak hala 0 12108 21.02.2001 5 tak garaż 0 1250
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Data i czas
Różne formaty reprezentacji danych:
14.12.2012
14.12.12
12.12.14
14 grudnia 2012
14 grudnia 2012 20:30
Porównanie pomiędzy poszczególnymi składowymi:
14.12.2012 – 01.12.1990 → grudzień
14.10.2012 20:30 – 01.12.1990 20:12 → godzina 20-sta
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Data i czas
Godzina zgłoszenia
Czę
stoś
ć
0 2 4 6 8 10 12 14 16 18 20 22 24
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07 Prawdopodobieństwo przejścia
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Atrybuty numeryczne
ID # GBA obiekt pow.1 5 fabryka 12002 1 hala 12103 5 garaż 1250
d(1,2)
d(1,3)
d(2,3)
d(1, 2) =√
(x1 − x2)2 + (y1 − y2)2 = 10d(1, 3) =
√(x1 − x3)2 + (y1 − y3)2 = 50
d(2, 3) =√
(x2 − x3)2 + (y2 − y3)2 = 40
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Normalizacja
Wszystkie atrybuty opisujące obiekt mają taką samą wartość minimalnąjak i maksymalną – opisane są na tej samej skali.Przykład: dzielenie przez wartość maksymalną danego atrybutu.
ID # GBA # GBA norm. obiekt pow. pow. norm.1 5 1 fabryka 1200 0,962 1 0,2 hala 1210 0,973 5 1 garaż 1250 1
d norm(1, 2) = 0, 8d norm(1, 3) = 0, 04d norm(2, 3) = 0, 8
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Standaryzacja
●●●
●●
●● ● ●● ●
●
●●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●●
●
0 1 2 3 4
010
2030
4050
60
x
y
z = x−µσ
ID # GBA # GBA stand. obiekt pow. pow. stand.1 5 0,58 fabryka 1200 -0,762 1 -1,15 hala 1210 -0,383 5 0,58 garaż 1250 1.13
d stand(1, 2) = 1, 78d stand(1, 3) = 0, 89d stand(2, 3) = 2, 29
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dyskretyzacja
ID # GBA # GBA dyskr. obiekt pow. pow. dyskr.1 3 średnia blok 40 średnia2 1 mała dom 120 duża3 1 mała samochód 4 średnia4 5 duża fabryka 1200 b. duża5 2 małą śmietnik 0,4 mała6 4 średnia mieszkanie 38 średnia7 1 mała hala 1210 b. duża8 5 duża garaż 1250 b. duża
# GBA: [1 , 2] → mała; [3, 4] → średnia; [5,∞) → duża;# powierzchnia: [0 , 2] → mała; [3, 40] → średnia; [41,150] → duża; [151,∞)→ bardzo duża;
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dyskretyzacja
0 5 10 15 20
05
1015
I II III
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Atrybuty nominalne i porządkowe
ID pożar obiekt piętro1 tak mieszkanie IV2 tak dom I3 nie samochód -4 tak fabryka 05 nie śmietnik -6 tak mieszkanie VII7 tak hala 08 tak garaż 0
ID pożar o mieszkanie o dom o samochód o fabryka o śmietnik o hala o garaż piętro1 1 1 0 0 0 0 0 0 42 1 0 1 0 0 0 0 0 13 0 0 0 1 0 0 0 0 -4 1 0 0 0 1 0 0 0 05 0 0 0 0 0 1 0 0 -6 1 1 0 0 0 0 0 0 77 1 0 0 0 0 0 1 0 08 1 0 0 0 0 0 0 1 0
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Atrybuty nominalne i porządkowe
pożar
1
1
1
2
3
4
o_mieszkanie
piętro
(1,4,1)
(1,1,0)
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Puste i błędne wartości
ID pożar obiekt piętro1 tak mieszkanie IV2 tak dom I3 nie samochód4 tak fabryka 05 nie śmietnik brak6 nie wiem mieszkanie VII7 tak hala 08 tak garaż 0
- zastąpienie średnią lub najczęściej występującą wartością- zbudowanie modelu wpisywania wartości- wartość losowa- usunięcie wiersza
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dane tekstowe
Przykład:Po dojechaniu na miejsce zdarzenia stwierdzono że w mieszkaniu na Ipiętrze doszło do wybuchu wskutek którego wypadło okno wraz zfutryną. Po dokładnym rozpoznaniu stwierdzono że w pomieszczeniułazienki doszło do pozaru pralki automatycznej z bliżej nieokreślonychprzyczyn.Pralkę ugaszono przy pomocy wody po uprzednim odłączeniunapięcia.W obrębie pralki znaleziono rozerwane opakowanie podezodorancie które mogło spowodować wybuch i powstanie faliuderzeniowej.Ze względu na niemożliwość jednoznacznego określeniaprzyczynu powstania eksplozji na miejsce zadysponowano ekipę policji zKP Białołęka której przekazano pomieszczenie wraz z pralką.Żadna zosób znajdujących się w lokalu nie odniosła obrażeń. Po zakończeniudziałan oddymiono klatkę schodową.Spaleniu uległa pralkaautomatyczna okopceniu ściany mieszkania.
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Reprezentacja dokument-słowo
Term-document-matrix (TDM)
słowo/raport Raport 1 Raport 2 Raport 3 Raport nafrykański 1 0 0 0agresywnie 1 0 0 0akademik 1 0 0 1akumulator 0 1 0 0albert 0 0 1 0alkoholowy 1 0 0 1alkomat 1 0 0 0altanka 0 0 1 0antywłamaniowy 0 0 1 0asfalt 0 1 0 0... 0 0 0 0
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Częstość słów
Miary częstości słów:
TF (term frequency) częstość słowa – liczba powtórzeń słowa wdokumencie do liczby wszystkich słów w dokumencie.
IDF (inverse document frequency) odwrotna częstość dokumentu –liczba dokumentów w korpusie (zbiorze) do liczby dokumentów, wktórym dane słowo wystąpiło.
TF-IDF = TF x IDF
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
TDM
słowo/raport Raport 1 Raport 2 Raport 3 Raport nafrykański 0.01 0.00 0.04 0.00agresywnie 0.30 0.03 0.00 0.00akademik 0.20 0.40 0.00 0.30akumulator 0.00 0.00 0.00 0.00albert 0.07 0.00 0.00 0.70alkoholowy 0.20 0.50 0.00 0.00alkomat 0.10 0.00 0.00 0.00altanka 0.00 0.00 0.02 0.01antywłamaniowy 0.00 0.00 0.00 0.00asfalt 0.00 0.00 0.05 0.00
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Odmiana wyrazów oraz stop lista
Po dojechaniu na miejsce zdarzenia stwierdzono że w mieszkaniu na Ipiętrze doszło do wybuchu wskutek którego wypadło okno wraz zfutryną. Po dokładnym rozpoznaniu stwierdzono że w pomieszczeniułazienki doszło do pożaru pralki automatycznej z bliżej nieokreślonychprzyczyn. Pralkę ugaszono przy pomocy wody po uprzednim odłączeniunapięcia.W obrębie pralki znaleziono rozerwane opakowanie podezodorancie które mogło spowodować wybuch i powstanie faliuderzeniowej. Ze względu na niemożliwość jednoznacznego określeniaprzyczyn powstania eksplozji na miejsce zadysponowano ekipę policji zKP Białołęka której przekazano pomieszczenie wraz z pralką. Żadna zosób znajdujących się w lokalu nie odniosła obrażeń. Po zakończeniudziałań oddymiono klatkę schodową.Spaleniu uległa pralka automatycznaokopceniu ściany mieszkania.
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Lematyzacja
dojechać miejsce zdarzyć stwierdzić mieszkać piętro dojść wybuchwskutek wypaść okno futryna. dokładny rozpoznać stwierdzić łazienkadojść pożar pralka automatyczny blisko nieokreślony przyczyna. pralkaugasić pomoc woda uprzedni odłączyć napiąć. obrąb pralka znaleźćrozerwać opakować dezodorant móc spowodować wybuch powstać falauderzeniowy. wzgląd niemożliwość jednoznaczny określić powstaćeksplozja miejsce zadysponować ekipa policja kp przekazać pomieścićpralka. osoba znajdywać siebie lokal odnieść obrazić. zakończyć oddymićklatka schodowy. spalić ulec pralka automatyczny okopcieć ścianamieszkać.
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Lematyzacja cd.
Lematyzacja - pojęcie to oznacza sprowadzenie grupy wyrazówstanowiących odmianę danego zwrotu do wspólnej postaci,umożliwiającej traktowanie ich wszystkich jako te samo słowo.
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Podobieństwo semantyczne
dojechać miejsce zdarzyć stwierdzić mieszkać piętro dojść wybuchwskutek wypaść okno futryna. dokładny rozpoznać stwierdzić łazienkadojść pożar pralka automatyczny blisko nieokreślony przyczyna. pralkaugasić pomoc woda uprzedni odłączyć napiąć. obrąb pralka znaleźćrozerwać opakować dezodorant móc spowodować wybuch powstać falauderzeniowy. wzgląd niemożliwość jednoznaczny określić powstaćeksplozja miejsce zadysponować ekipa policja kp przekazać pomieścićpralka.
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Analiza ukrytych grup semantycznych
słowo/raport Raport 1 Raport 2 Raport 3 Raport 4wybuch 1 0 0 1samochód 0 1 0 0eksplozja 1 0 0 0GBA 0 1 0 0wyrzut 0 0 1 1pożar 1 0 1 0gaśniczy 0 1 0 0
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Analiza ukrytych grup semantycznych
Latent Semantic Analysis:
słowo/raport pojęcie 1 pojęcie 2 pojęcie 3wybuch 0,25 -0,12 0,03samochód -0,11 0,19 -0,05eksplozja 0,13 -0,70 -0.02GBA -0,77 0,22 0,01wyrzut 0,02 -0,51 0,07pożar 0,00 0,01 -0.12gaśniczy -0,07 0,32 0.01
7,11 0 00 2,31 00 0,00 0
pojęcie/raport Raport 1 Raport 2 Raport 3 Raport 4pojęcie 1 0,31 -0,43 0,44 0,21pojęcie 2 -0,70 0,61 -0,24 -0,33pojęcie 3 -0,01 0,02 0,02 0,02
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dane sensoryczne
Film
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dane sensoryczne
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dane sensoryczne – analiza
0 20 40 60 80 100
46
810
1214
16
x
y
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Średnia
0 20 40 60 80 100
46
810
1214
16
x
y
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Trend
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
0 20 40 60 80 100
46
810
1214
16
x
y
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Trend
5 10 15
1020
3040
powierzchnia pożaru
czas
trwan
iaak
cji
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Trend
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
0 20 40 60 80 100
46
810
1214
16
x
y
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Wartości odstające
0 20 40 60 80 100
−4
−2
02
4
x
y
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Wartości odstające
0 20 40 60 80 100
−4
−2
02
4
x
y
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Wahania sezonowe
x
y
2010 2011 2012 2013 2014 2015 2016 2017
−0.
50.
00.
5
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Szum
x
y
2010 2011 2012 2013 2014 2015 2016 2017
−2
−1
01
23
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
56
78
910
obse
rved
6.0
6.5
7.0
7.5
tren
d
−0.
50.
00.
5
seas
onal
−2
−1
01
23
2010 2011 2012 2013 2014 2015 2016 2017
rand
om
Time
Decomposition of additive time series
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dane multimedialne
Multimedia (łac. multum + medium) – media, stanowiące połączeniekilku różnych form przekazu informacji np. tekstu, dźwięku, grafiki,animacji, wideo.
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Histogramy
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dopasowanie do wzorca
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dopasowanie do wzorca
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Dopasowanie do wzorca
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
źródło: Y. Fang, K. Wang, J. Cheng, H. Lu: A Real-Time Hand Gesture Recognition Method. 2007.
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Analiza z użyciem ontologii
Źródło: dzięki uprzejmości Hiranmay Gosh
Adam Krasuski Technologie Informacyjne
Dane tabelaryczne Dane tekstowe Dane sensoryczne Dane multimedialne
Analiza z użyciem ontologii cd.
Źródło: dzięki uprzejmości Hiranmay Gosh
Adam Krasuski Technologie Informacyjne
Recommended