White Paper L¶sungsans¤tze f¼r Big Data - .White Paper L¶sungsans¤tze f¼r Big Data

  • View
    214

  • Download
    0

Embed Size (px)

Text of White Paper L¶sungsans¤tze f¼r Big Data - .White Paper...

  • White Paper Lsungsanstze fr Big Data

    Seite 1 von 16 www.fujitsu.com/de

    White Paper Lsungsanstze fr Big Data

    Das Thema Big Data gewinnt fr immer mehr Unternehmen an Bedeutung. Es werden neue Anwendungsfelder erschlossen, bei denen riesige Datenmengen automatisch und kontinuierlich aus unterschiedlichen Datenquellen generiert werden. Bei der Auswertung dieser Daten stt die traditionelle IT jedoch an ihre Grenzen. Wie lassen sich der hohe Komplexittsgrad und die Beschrnkungen bei der Verarbeitungsgeschwindigkeit berwinden? Verschiedene Lsungsanstze wurden erfolgreich erprobt und bereits produktiv eingesetzt. In diesem White Paper mchte Fujitsu Ihnen Einblicke darin vermitteln, wie in welcher Situation vorzugehen ist.

    Inhalt

    Unternehmerisches Wunschdenken 2 Daten Der grte Aktivposten eines jeden Unternehmens 2 Klassische Business Intelligence 2 Die Situation hat sich gendert 2 Vernderte Anforderungen an die Business Intelligence 3 Big Data Worum geht es dabei eigentlich? 3 Warum traditionelle Lsungen ungeeignet sind 4 Verteilte Parallelverarbeitung 5 Apache Hadoop 5 Hadoop Distributed File System (HDFS) 5 Hadoop MapReduce 6 YARN (Yet Another Resource Negotiator) 6 Apache Hadoop-Unterprojekte 7 Die destillierte Essenz von Big Data 7 In-Memory Plattform 8 In-Memory Datenbanken (IMDB) 8 In-Memory Data Grid (IMDG) 9 Infrastrukturoptimierung fr relationale Datenbanken 9 Datenbanken fr Big Data 10 Complex Event Processing 12 Referenzarchitektur fr Big Data 13 Bei Big Data geht es aber nicht nur um die Infrastruktur 14 Ihr Weg zu Big Data 14 Betrieb von Big-Data-Infrastrukturen 15 IaaS, PaaS, SaaS oder sogar Data Science als Service? 15 Welchen Beitrag kann Fujitsu leisten? 16 Zusammenfassung 16

  • White Paper Lsungsanstze fr Big Data

    Seite 2 von 16 www.fujitsu.com/de

    Unternehmerisches Wunschdenken Die Steigerung von Rentabilitt und Erlsen hat in Unternehmen normalerweise oberste Prioritt. Hierzu ist eine bestndige Steigerung von Leistungsfhigkeit und Produktivitt der Mitarbeiter sowie der Effizienz und Wettbewerbsfhigkeit des Unternehmens als Ganzes bei gleichzeitiger Risikominimierung erforderlich. Die spannende Frage lautet nun, wie sich dies schneller, effektiver und in grerem Umfang erreichen lsst als bei den Mitbewerbern.

    Wie wre es, wenn Sie voraussagen knnten, wie sich Trends, das Verhalten der Kunden oder geschftliche Chancen entwickeln werden?

    Wenn Sie stets die optimale Entscheidung treffen wrden? Wenn Sie die Entscheidungsfindung beschleunigen knnten? Wenn entscheidende Manahmen automatisch ergriffen wrden? Wenn Sie Probleme und Kosten

    bis zu ihrem Ursprung zurckverfolgen knnten? Wenn sich sinnlose Aktivitten eliminieren lieen? Wenn sich Risiken exakt quantifizieren

    und auf ein Minimum reduzieren lieen? Bei der Betrachtung solcher Fragen denken viele Manager sofort an die Chancen, die sich daraus fr ihr Unternehmen ergeben. Sind dies jedoch lediglich Wunschtrume, oder besteht die Chance, dass sie eines Tages verwirklicht werden knnen? Daten Der grte Aktivposten eines jeden Unternehmens Neben den Mitarbeitern sind Daten die wertvollste Ressource eines jeden Unternehmens. Bereits vor Jahrzehnten wurde dies erkannt, und man versuchte, Daten profitbringend einzusetzen. Es lag auf der Hand, dass durch die intelligente Nutzung von Daten eine Entscheidungsfindung mglich wurde, die auf fundierten Fakten und nicht auf Intuition beruhte. Hierdurch konnten geschftliche Ablufe verbessert, das Risiko minimiert, Kosten reduziert und das Geschft im Allgemeinen gefrdert werden. Eine weitere wichtige Erkenntnis bestand darin, dass Daten in ihrer ursprnglichen Form normalerweise nur von geringem Wert waren. Aus diesem Grund wurden Daten aus abrufbereiten Datenquellen hauptschlich aus transaktionalen Datenbanken erfasst, konsolidiert und in eine fr die Analyse geeignete Form gebracht, um Beziehungen, Muster und Grundstze und damit letztendlich ihren echten Wert zu ermitteln. Genau dies war anfnglich der Grundgedanke der Business Intelligence (BI). Klassische Business Intelligence Im Rahmen der Business Intelligence werden die aufbereiteten Daten geladen und in einer speziellen Datenbank gespeichert, dem so genannten Data Warehouse. Dieses ist von den Transaktionssystemen getrennt, um diese nicht mit der Analyse von Unternehmensdaten, der Berichterstellung oder der Visualisierung von Abfrageergebnissen zu belasten. Data Warehouses sind fr die Generierung von Reports optimiert. Aus Leistungs- oder Berechtigungsgrnden werden multidimensionale Intervalle oder andere spezielle Datenbankansichten als Auszge des Data Warehouse erstellt. Diese so genannten Cubes oder Data Marts knnen dann fr eine tiefgreifende Analyse oder zur Generierung rollenspezifischer Berichte genutzt werden.

    Die traditionelle BI nutzt hauptschlich interne und historische Datenbank-Views, die sich aus einigen wenigen Datenquellen speisen. Die Daten werden strukturiert und typischerweise in einem relationalen Datenbankmanagementsystem (RDBMS) gespeichert. Business Analytics-Vorgnge werden auf Grundlage eines statischen Modells entworfen und in regelmigen Abstnden tglich, wchentlich oder monatlich als Batchverarbeitung ausgefhrt. Da der durchschnittliche Benutzer meist nicht entsprechend geschult ist, um komplexe Analysen in Eigenregie zu erstellen, ist die Zahl derjenigen, die Abfragen ausfhren oder sich mit der Auswertung von Unternehmensdaten beschftigen, auf einige wenige Fachanwender beschrnkt.

    Die Situation hat sich gendert Seit den Anfangszeiten der BI haben sich die Dinge erheblich gendert. Es sind eine Reihe vielseitig nutzbarer Datenquellen hinzugekommen, die es zu bercksichtigen gilt. Neben transaktionalen Datenbanken sind es insbesondere die Daten aus dem Internet in Form von Blog-Inhalten oder Click-Streams, die wertvolle Informationen enthalten, ganz zu schweigen von den Inhalten der sozialen Medien, die sich zu den am hufigsten genutzten Kommunikationsplattformen entwickelt haben. Auch aus Multimedia-Daten, z. B. Video, Foto oder Audio, lassen sich Rckschlsse fr unternehmerische Entscheidungen ziehen. Es existiert ein riesiger Fundus an Textdateien, darunter schier endlose Protokolldateien aus IT-Systemen, Notizen und E-Mails, die ebenfalls Indikatoren enthalten, die fr Unternehmen interessant sein knnten. Und nicht zuletzt gibt es noch eine Myriade von Sensoren, die in Smartphones, Fahrzeugen, Gebuden, Robotersystemen, Gerten und Apparaten, intelligenten Netzwerken schlichtweg in jedem Gert, das Daten erfasst in einem Umfang verbaut wurden, der noch vor Kurzem unvorstellbar war. Diese Sensoren bilden die Grundlage fr das sich im Aufbau befindliche, vielfach zitierte Internet der Dinge. Aus branchenspezifischer Sicht wren auerdem medizinische Untersuchungen im Gesundheitswesen, RFID-Etiketten zur Verfolgung beweglicher Gter sowie geophysische oder dreidimensionale Raumdaten (z. B. GPS-gesttzte Ortsdaten) oder Daten von Beobachtungssatelliten zu nennen. Diese Aufzhlung ist bei weitem nicht vollstndig.

  • White Paper Lsungsanstze fr Big Data

    Seite 3 von 16 www.fujitsu.com/de

    Natrlich nimmt das Volumen bei allen Arten von Daten bestndig zu, aber es sind insbesondere die Sensoren mit ihren automatisch und kontinuierlich generierten Ereignisdaten, die in Zukunft einen enormen Einfluss haben werden. Es berrascht daher kaum, dass wir uns einem exponentiellen Datenwachstum gegenber sehen. Schauen wir uns einmal ein wenig genauer an, was diese exponentielle Datenentwicklung eigentlich bedeutet. Die Experten sprechen von einem Datenvolumen von 2,5 x 1018 Byte, das tglich hinzukommt. Dabei stammen 90 % aller vorhandenen Daten aus den letzten zwei Jahren. Das Datenvolumen steigt jhrlich um 65 % an. Dies entspricht einer Verdopplung der Datenmenge alle 18 Monate bzw. einem Wachstum um den Faktor 12 alle fnf Jahre im Vergleich zum heutigen Stand. Mithin geht es hier nicht nur um Terabyte, sondern um Petabyte, Exabyte, Zettabyte und sogar Yottabyte, und ein Ende ist nicht abzusehen. Viele IT-Manager haben daher das Gefhl, in einer Flut aus Daten buchstblich unterzugehen. Dabei geht es nicht nur um die Vielzahl von Datenquellen und das anwachsende Datenvolumen, sondern auch um neue Datentypen, die laufend hinzukommen. In der klassischen BI wurden lediglich strukturierte Daten in den festen Tabellenfeldern relationaler Datenbanken bercksichtigt. Heute ist der Groteil der Daten unstrukturiert Experten sprechen dabei von mehr als 80 %. Unstrukturierte Daten sind etwa Textdaten wie Artikel, E-Mails und andere Dokumente, oder Daten, die nicht in Textform vorliegen, z. B. Audio, Video oder Bilddaten. Zustzlich zu strukturierten und unstrukturierten Daten gibt es auerdem semistrukturierte Daten, die nicht in festen Datenfeldern vorliegen, sondern durch so genannte Tags in aufeinander folgende Datenelemente unterteilt werden. Beispiele fr semistrukturierte Daten sind XML-, HTML- und PDF/A-Daten sowie RSS-Feeds. Abschlieend sind noch die polystrukturierten Daten zu nennen, die aus einer Vielzahl unterschiedlicher Datenstrukturen bestehen, die sich zustzlich noch verndern knnen. Beispiele fr polystrukturierte Daten sind elektronische Datenstze in Form von XML-Dokumenten mit PDF/A-Elementen oder unterschiedliche Versionen eines Dokuments, die sich in der Anzahl der Elemente oder sogar in der Version des zugrunde liegenden XML-Schemas unterscheiden. Vernderte Anforderungen an die Business Intelligence Interessant ist, welche Auswirkungen all diese berlegungen auf die Business Intelligence von heute haben. Aus unternehmerischer Sicht wurde nmlich schnell klar, dass sich aus dieser Vielzahl unterschiedlicher Datenquellen mit ihren riesigen, aber bislang ungenutzten Datenbestnden egal ob diese strukturiert, unstrukturiert, semistrukturiert oder polystrukturiert vorliegen imm