23
BUILDING A DATA WAREHOUSE WITH HADOOP 10.10.20 15 IGOR NAKHVAT, DATA INTEGRATION ENGINEER

DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

Embed Size (px)

Citation preview

Page 1: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

BUILDING A DATA WAREHOUSE WITH HADOOP

10.10.2015

IGOR NAKHVAT, DATA INTEGRATION ENGINEER

Page 2: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

CONTENT TABLE

I. Building a Data Warehouse with HadoopA.Data sourcesB.Data storageC.Data flowD.ETL toolE.Conclusions

Page 3: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

3

DATA SOURCESGamesDATA SOURCES

DATA STORAGEDATA FLOW

ETL TOOLCONCLUSIONS

Page 4: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

4

SPA Payment

Forum

eSport

Clan wars

Update

DATA SOURCESServicesDATA SOURCES

DATA STORAGEDATA FLOW

ETL TOOLCONCLUSIONS

Page 5: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

5

DATA SOURCESGeographyDATA SOURCES

DATA STORAGEDATA FLOW

ETL TOOLCONCLUSIONS

Page 6: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

6

DATA SOURCES

Total: 294

222

72

Tables

Total: 1264

Relational databasesDATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 7: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

7

DATA SOURCESNon - Relational data sourcesDATA SOURCES

DATA STORAGEDATA FLOW

ETL TOOLCONCLUSIONS

Page 8: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

8

• It is an open architecture.

• Cost effective.

• Many interfaces to data (SQL, Spark, Java, Scala, Python).

• Many ways/formats for storing the data.

• Many tools available for the data analytics.

DATA STORAGEWhy Hadoop?DATA SOURCES

DATA STORAGEDATA FLOW

ETL TOOLCONCLUSIONS

Page 9: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

9

Keep in mind

• Lack of employees

• Security

DATA STORAGEWhy Hadoop?DATA SOURCES

DATA STORAGEDATA FLOW

ETL TOOLCONCLUSIONS

Page 10: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

10

DATA STORAGEHadoop ecosystem

SQOOP

PIG

DATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 11: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

11

DATA STORAGEHow HDFS works?DATA SOURCES

DATA STORAGEDATA FLOW

ETL TOOLCONCLUSIONS

Page 12: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

12

DATA STORAGEHow HDFS works?DATA SOURCES

DATA STORAGEDATA FLOW

ETL TOOLCONCLUSIONS

Page 13: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

13

DATA STORAGEHow HDFS works?DATA SOURCES

DATA STORAGEDATA FLOW

ETL TOOLCONCLUSIONS

Page 14: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

14

DATA FLOW

Shell

SQL

CSV + GZIP

Check count

rows

Compute

stats

Parquet

DATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 15: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

15

DATA FLOW

Parquet

Shell

DATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 16: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

16

DATA FLOW

Parquet

DATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 17: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

17

DATA FLOW

Shell

Aggregation

Presentation

Audience

Balance

Finance

Data scientist

Manager

DATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 18: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

18

ETL TOOL

Continuous integration tool

+ =

ETL tool

Plugins

5 - 20 Hours

1000+ Jobs

JenkinsDATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 19: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

19

ETL TOOL

Apache NiFiDATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 20: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

20

Apache NiFi

• Drag – n – drop works!

• Great visualization.

• Data provenance.

• Flow can be modified at runtime.

ETL TOOLDATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 21: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

21

Apache NiFi

Keep in mind

• Multiuser development.

• No templates.

• NiFi is not an orchestration tool.

ETL TOOLDATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS

Page 22: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

22

CONCLUSIONSDATA SOURCESDATA STORAGE

DATA FLOWETL TOOL

CONCLUSIONS • Hadoop is good for data warehousing

• Poor Hadoop security

• Impala (SQL on Hadoop) performs and scales

• Data format choice is a key (Avro, Parquet)

Page 23: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват

TANKS A LOT!