Generierung und Vergleich von Charakteristika von ... ... Generierung und Vergleich von Charakteristika

  • View
    0

  • Download
    0

Embed Size (px)

Text of Generierung und Vergleich von Charakteristika von ... ... Generierung und Vergleich von...

  • Generierung und Vergleich von Charakteristika von Umweltsystemen in

    Zeitmessreihen mittels Stratosphere

    Diplomarbeit

    zur Erlangung des akademischen Grades Diplominformatiker(in)

    Humboldt-Universität zu Berlin Mathematisch-Naturwissenschaftliche Fakultät II

    Institut für Informatik

    eingereicht von: Christian Fiebrig geboren am: 01.03.1978 in: Leipzig

    Gutachter(innen): Prof. Johann-Christoph Freytag, Ph.D. Dr. Mike Sips

    eingereicht am: . . . . . .

  • Inhaltsverzeichnis

    1 Einleitung 1

    2 Spatial-Pyramid-Ansatz 5 2.1 Berechnung der räumlichen Pyramiden . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Vergleich der räumlichen Zustände . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3 Komplexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4 SSE - Sum of Squared Errors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.5 Kernel-Trick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.6 Benutzung des Spatial-Pyramid-Ansatzes in einem Clustering-Algorithmus . . . . . 17 2.7 Andere Verfahren zur Ähnlichkeitsabschätzung . . . . . . . . . . . . . . . . . . . . 18

    3 Verteilte Systeme 20 3.1 Map/Reduce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    3.1.1 Operationen in Map/Reduce . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.1.2 Implementierungen von Map/Reduce . . . . . . . . . . . . . . . . . . . . . . 28

    3.2 Stratosphere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2.1 Architektur von Stratosphere . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2.2 Das PACT-Programmiermodell in Stratosphere . . . . . . . . . . . . . . . . 31 3.2.3 Die Ausführungsschicht Nephele . . . . . . . . . . . . . . . . . . . . . . . . 34

    4 Umsetzung des Spatial-Pyramid-Ansatzes in Stratosphere 35 4.1 Vorverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Featuregenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.3 Implementierung des Spatial-Pyramid-Ansatzes . . . . . . . . . . . . . . . . . . . . 38

    4.3.1 Featureermittlung und Erstellung der Featuresignaturen . . . . . . . . . . . 38 4.3.2 Vergleich und Bildung der Ähnlichkeitsmatrix . . . . . . . . . . . . . . . . . 47

    4.4 Diskussion Parallelimplementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    5 Evaluierung 52 5.1 Cluster am Geoforschungszentrum Potsdam . . . . . . . . . . . . . . . . . . . . . . 52 5.2 Test- und Vergleichsgegenstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.3 Erwarteter Einfluss von Parametern des Spatial-Pyramid-Ansatzes . . . . . . . . . 55 5.4 Referenzdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    5.4.1 Ozeandaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.4.2 Synthetische Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    5.5 Evaluation Ozeandaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.5.1 Güte des Spatial-Pyramid-Ansatzes . . . . . . . . . . . . . . . . . . . . . . 64 5.5.2 Performance des Spatial-Pyramid-Ansatzes . . . . . . . . . . . . . . . . . . 66

    i

  • ii INHALTSVERZEICHNIS

    5.5.3 Qualität des Spatial-Pyramid-Ansatzes . . . . . . . . . . . . . . . . . . . . . 69 5.6 Evaluation der synthetischen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.7 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    6 Ausblick 74

    A Anzahl der Vergleiche 78

    B Tabellen für das Implementierungsbeispiel 79

    C Evaluation Ozeandaten 81 C.1 Messungen Laufzeit für den Spatial-Pyramid-Ansatz . . . . . . . . . . . . . . . . . 81

    C.1.1 Graphen für die durchschnittlichen Laufzeiten . . . . . . . . . . . . . . . . . 81 C.1.2 Tabellen für durchschnittlichen Laufzeiten . . . . . . . . . . . . . . . . . . . 87 C.1.3 Standardabweichungen für die durchschnittlichen Laufzeiten . . . . . . . . . 90 C.1.4 Verhältnisse der Laufzeiterhöhung . . . . . . . . . . . . . . . . . . . . . . . 94 C.1.5 Separate durchschnittliche Laufzeiten für Pyramidisierung und Vergleich . . 96

    C.2 Durchschnittliche Laufzeiten des Spatial-Pyramid-Ansatzes für 256 Features . . . . 97 C.3 Durchschnittliche Laufzeiten für die SSE . . . . . . . . . . . . . . . . . . . . . . . . 98

    C.3.1 Standardabweichung für SSE . . . . . . . . . . . . . . . . . . . . . . . . . . 99 C.4 Güte der Vergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 C.5 Qualität der Vergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 C.6 Dauer eines Vergleichs zweier räumlicher Zustände . . . . . . . . . . . . . . . . . . 103

    D Evaluation der synthetischen Daten 104

  • Abbildungsverzeichnis

    1.1 Darstellung zweier verschiedener räumlicher Zustände . . . . . . . . . . . . . . . . 2

    2.1 Vergleich unterschiedlich großer Teilbereiche . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Aufteilung eines räumlichen Zustandes in Features . . . . . . . . . . . . . . . . . . 8 2.3 Darstellung eines Quad-Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.4 Auflösungen eines räumlichen Zustands von Level 0 bis Level 3 . . . . . . . . . . . 11 2.5 Vergleich zweier räumliche Zustände . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6 Beispiel für die Gewichtung des Vorkommen von gemeinsamen Features . . . . . . 14

    3.1 Datenparallelität im Vergleich zur Pipeline-Parallelität . . . . . . . . . . . . . . . . 22 3.2 Symbolische Darstellung der Verteilung von Map- und Reduce-Operationen . . . . 25 3.3 Strukturierte Übersicht über Komponenten in Stratosphere . . . . . . . . . . . . . 30 3.4 Plan eines beliebigen PACT-Programms . . . . . . . . . . . . . . . . . . . . . . . . 31

    4.1 Aufteilung der Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.2 PACT-Schema (1.Teil) - Einlesen der Daten . . . . . . . . . . . . . . . . . . . . . . 38 4.3 PACT-Schema (2.Teil) - Erstellen der Features und der Featuresignaturen . . . . . 40 4.4 Alternativer Plan (Idee 1) zur Erstellung der räumlichen Pyramide . . . . . . . . . 42 4.5 Alternativer Plan (Idee 2) zur Erstellung der räumlichen Pyramide . . . . . . . . . 43 4.6 PACT-Schema (3.Teil) - Vergleich der räumlichen Zustände . . . . . . . . . . . . . 47

    5.1 Visualisierung eines räumlichen Zustandes der Ozeandaten . . . . . . . . . . . . . . 57 5.2 Durchschnittliche Laufzeit für 1024 räumliche Zustände . . . . . . . . . . . . . . . 60 5.3 Grafische Darstellung der Anzahl der Vergleichsoperationen je Level . . . . . . . . 61 5.4 Durchschnittliche Laufzeiten für 256 Features . . . . . . . . . . . . . . . . . . . . . 62 5.5 Durchschnittliche Laufzeiten nur für die Pyramidisierung . . . . . . . . . . . . . . 64 5.6 Durchschnittliche Laufzeiten nur für den Vergleich . . . . . . . . . . . . . . . . . . 64 5.7 Güte des Spatial-Pyramid-Ansatzes gegenüber der SSE . . . . . . . . . . . . . . . . 65 5.8 Vergleich der Laufzeiten der SSE gegen eine Beispielkonfiguration . . . . . . . . . . 67 5.9 Verhältnis der Laufzeiten zwischen Spatial-Pyramid-Ansatz und SSE . . . . . . . . 68 5.10 Qualität des Spatial-Pyramid-Ansatzes gegenüber der SSE . . . . . . . . . . . . . . 70 5.11 Durchschnittliche Laufzeit für die synthetischen Daten für 1.000 Zustände . . . . . 71

    C.1 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 1 . . . . . . . 81 C.2 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 2 . . . . . . . 82 C.3 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 4 . . . . . . . 82 C.4 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 8 . . . . . . . 83 C.5 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 16 . . . . . . 83 C.6 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 32 . . . . . . 84

    iii

  • iv ABBILDUNGSVERZEICHNIS

    C.7 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 64 . . . . . . 84 C.8 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 128 . . . . . 85 C.9 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 256 . . . . . 85 C.10 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 512 . . . . . 86 C.11 Durchschnittliche Laufzeit bei Eingabemenge (grafische Darstellung): 1024 . . . . . 86 C.12 Fehler des Spatial-Pyramid-Ansatzes . . . . . . . . . . . . . . . . . . . . . . . . . . 100 C.13 Qualität des Spatial-Pyramid-Ansatzes . . . . . . . . . . . . . . . . . . . . . . . . . 102

  • Tabellenverzeichnis

    3.1 Beispielinhalt für das Map/Reduce-Beispiel . . . . . . . . . . . . . . . . . . . . . . 27

    4.1 Featureintervalle für Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.2 Beispiel Teilbereichskoordinaten für einen Punkt . . . . . . . . . . . . . . . . . . . 46

    5.1 Anzahl der Teilbereiche und Gesamtanzahl der Teilbereiche je Level . . . . . . . . 59

    A.1 Anzahl der Vergleichsoperationen je Level und Feature . . . . . . . . . . . . . . . . 78

    B.1 Inhalt der Beispieldatei ’file1.asc’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 B.2 Inhalt der Beispieldatei ’file2.asc’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 B.3 Signaturen aller Level der Datei file1.asc . . . . . . . . . . . . . . . . . . . . .