Analyse von großen Datensätzen in den...

Analyse von großen Datensätzen in den Lebenswissenschaften

und der Bioinformatik (19403201)

Tim Conrad

Session 15

• Technologies / Frameworks for Big Data analysis• ETL in the Cloud

Data Streams = continuous flows of dataExample Analyses:

https://databricks.com/session/a-platform-for-large-scale-neuroscience

Neuroscience @ Freeman Lab, Janelia Farm

Analyzing STREAM DATA:

Ingest, Process, Store

http://blog.infochimps.com/2012/10/30/next-gen-real-time-streaming-storm-kafka-integration/

Common Pipeline: Ingest, Process, Store

Processing Stack

How to process big streaming data

Stream Ingestion Systems

Stream Processing Systems

Stream Storing Systems

Frameworks / Technologies for Big Data Analysis

https://www.elastic.co/de/products/kibana

Technologies „in the field“

Cloud ETL Tools

AWS GlueServerless ETL

Azure Data FactoryVisual Cloud ETL

Google Cloud DataflowUnified Programming Model for Data Processing

AWS Glue architecture

Source: https://docs.aws.amazon.com/athena/latest/ug/glue-athena.html

Components:• Data Catalog• Crawlers• ETL jobs/scripts• Job scheduler

Useful for…• …running serverless queries against S3 buckets and

relational data• …creating event-driven ETL pipelines• …automatically discovering and cataloging your

enterprise data assets

AWS Glue

Can act as metadata repository for other Amazon services

Tables - Added to “databases” using

the wizard or a crawler

Data sources: Amazon S3, Redshift, Aurora, Oracle, PostgreSQL, MySQL, MariaDB, MS SQL Server, JDBC, DynamoDB

Crawlers connect to one or more data stores, determine the data structures, and write tables into the Data Catalog

Data catalog - the central component

Jobs PySpark or Scala scripts, generated by AWS Glue Visual dataflow can be generated, but not used for development Execute ETL using the job scheduler, events, or manually invoke Built-in transforms used to process data

ApplyMapping• Maps source and target columns

Filter• Output selected fields to new DynamicFrame

SelectFields

SplitRows• Load new DynamicFrame based on

filtered records• Split rows into two new DynamicFrames

based on a predicate Join SplitFields

• Joins two DynamicFrames • Split fields into two new DynamicFrames

Google Cloud Dataflow

Source: https://cloud.google.com/dataflow/

Unified programming model for batch (historical) and streaming (real-time) data pipelines and distributed compute platform• Reuse code across both batch and streaming pipelines• Java or Python based

Programming model an open source project - Apache Beam (https://beam.apache.org/)• Runs on multiple different distributed processing back-ends:

Spark, Flink, Cloud Dataflow platforms

Fully managed service• Automated resource management and scale-out

Google Cloud Dataflow overview

Source: https://cloud.google.com/dataflow/

Dataflow I/O transforms

Build data pipelines using a visual ETL user interface• Visual Studio Team Services (VSTS) Git integration for collaboration,

source control, and versioning

Drag, drop, link activities• Copy Data: Source to Target• Transform: Spark, Hive, Pig,

streaming on HDInsight, Stored Procedures, ML Batch Execution, etc.

• Control flow: If-then-else, For-each, Lookup, etc.

Azure Data Factory

Source: https://azure.microsoft.com/en-us/blog/continuous-integration-and-deployment-using-data-factory/

Analyse von großen Datensätzen in den...

Documents

Mud-Logging GC Systems - Chromtech · PDF fileSRI Mud-Logging GC Systems Both Mud-logging GC systems are designed to provide a continuous reading of total hydrocarbons in a gas stream

L’Assurance Qualité Fournisseur · VSM : Value stream mapping ALMS : Air Liquide Medical Systems UTC : Université de Technologie de Compiègne QPO : Qualité et Performance dans

File Stream Storage

Modern stream cipher

Streambank Stabilization with Woody Debris Structures€¦ · stream systems, LWDS seem to be an obvious alternative for channel rehabilitation. According to Shields (2004), costs

BEDIENUNGSANLEITUNG Pro-Ject Stream Box DS2 T · 2018. 12. 6. · Pro-Ject Stream Box DS2 T Wir bedanken uns für den Kauf der Stream Box DS2 T von Pro-Ject Audio Systems. Warnt vor

Stream Mining: Clustering von Streamdaten fileMatthias Biehl Stream Mining: Clustering von Streamdaten- 2 Stream Mining Beispiele Herkömmliches Clustering Stream Clustering-Eigenschaften-Lösungsansatz

praezision...SprutCAM 11.5 3D - Programmierarbeitsplatz Kompatibel mit 2D & 3D CAD - Datensätzen 3D -Cimatron 3D - Programmierarbeitsplatz - Datensätzen DLOG -Quadro NC 2D - Programmierarbeitsplatz

Stream освіта

Akka stream

Virta Stream

Crypt an Stream

Stream gate

Stream vs. LINQ

2.10 IO Stream

Gonzalo Bernal Director · Azure IOT Suite (Cfor stream Azure App Service: Webjob Azure Event Hubs Azure Stream Analytics Power Bl to Hub Incoming Data Input to Stream Stream Ana

Value Stream Mapping

MULTIPLE STREAM TEAM

Entwicklung einer Applikationsentwurfsumgebung und eines ......Stream Handling in Multi-grained Reconfigurable Hardware Architectures; Symposium on Integrated Circuits and Systems

Copeland Stream