Big data ppt

Preview:

Citation preview

BIG DATA

2

BIG DATA

Big DataVeloci

tyVolum

e

Vari

ety

Just in time decision making

ANALYTICAL GOAL

Insight

Agile

New

تغییر فرآیند

اکوسیستمهای تغییرسازمانی

سهولت نوآوری

New Business Model

ANALYTICAL REQUIREMENTS

Conventional BIBig Data Analyticsمدلسازی

دقیق

های گزارشاستاندارد

ساخت یافته

درک حجم

شکل

سرعت تغییر

غیرساخت یافته

سازی مدلنادقیق

کاهش جابجایی

های توانایی از استفادهموجود

به توجهامنیت

Business Driver

افزایش درآمد

کاهش هزینه

تجربه بهبودمشتری

بهره افزایشوری

KEY TRENDSهای داده حجم افزایش

شده ذخیرهسریع شتاب

داده رشدرشد

خروج/ ورودیی

رشد گوناگونی

یابی دست های روشهمزمان

برای تقاضا ظهورآنی یکپارچگی

BUSINESS OPPORTUNITY

شدت رقابت

داده نوین انواعای

و کسب های داده حجمmکاری

ارزش های زنجیرهمنظم کامالْ

روزمره عملیاتفروش

اعتقاد سنجشمشتری

BUSINESS OPPORTUNITYSource: Big data and advanced analytics survey 2015; Volume I by Evans data

corporation

OPPORTUNITY/ THREATS

Competition

حسگرها

تجهیزات ارتباطی

کاربردهای تحلیلی

اطالعات کارهای و کسبمحور

فاکتور New Digital Gapکلیدی

تر اهمیت با الگوریتم از داده است

Human Resource

ADAPTATION

BIG DATA ADAPTATION

Adaptationمنحنی شیب

انطباق

عمر چرخه در تغییرداده

زیرساخت موجود

های گذاری سرمایهفعلی

و اندازهدوره

رویکرد داده

پایداری

امکانپذیری

ارزش

یکپارچه قابلیتعقالنیسازی

ت

BIG DATA APPLICATION

Analytical Applicationتحلیل و کاوی اجتماعی داده های شبکه تحلیل

چهره شناسایی

پروفایل تطابق متن تحلیل

رفتار تحلیل

تقلب کشف

مقیاس بزرگ اندک تحلیل ورود موانع

Application DevelopmentData Management

Platform

Resources

گلوگاه دادهگلوگاه محاسبه

بسیار حجم زیاد

گوناگونی توجه قابل

اجرای سودمندیموازی

DECISION ASPECTS

APPLICATION CONT…

Dispatching MonitoringFraud Detection

ProfilingClusteringگوناگونی

داده

Recommendation Systems

موازی اجرای

Price Modellingگلوگاه محاسبه

داده حجم

USEFULNESS CRITERIA

Harmony

سازمانی

و کسب چالشکاری

ارزش

VALUE ACQUISITION

Valueافزایش

درآمد

کاهش هزینه

وری بهره افزایش

کاهش مخاطره

VALUE ACQUISITION CONT…

Questionsبیانیه ارزش

عملیاتی سازی

BIG DATA VALUE CHAIN

درک فرصت

Valueتعریف

انتظاراتساخت نمونه

مدیریت و کسبمنابع

مدیریت ارزیابی برنامه و محیط توسعه به مهاجرت

تولید

ARCHITECTURE

BIG DATA COMPONENTS

DBMS

Acquisition

  توزیع های فایل سیستمشده

های  انبارهارزش/ کلید

NoSQLقابل اعتماد

امن

مدیریت شده

منعطف

تخصصی شده

Organize

استخراتغییر ج

شکل

بارگزاری

Analyse

BIG DATA COMPONENTS CONT…

Componentsفضای

سازی  ذخیرهپلتفورم محاسباتی

توسعه چارچوبافزار  نرم

  بندی بسته ابزارهایشده

مدیریت ابزارهایفرآیند

مدیریت محیطداده

BIG DATA COMPONENTS CONT…

Storageپذی  مقیاسری

پذیر  توسعهی

دسترس پذیری

تحمل خطا

خروجی/ ورودیسریع

قابلیت یکپارچگی

BIG DATA COMPONENTS CONT…

Platformچیز همه اشتراک

چیز هیچ اشتراک سخت تجهیزmافزاری

افزاmری نرم تجهیز

های گرهمحاسباتی

سریع شبکه

موازی داده اجرای میزان اندازهحافظه

ای داده ساختار

BIG DATA COMPONENTS CONT…

Row Base

عملکرد دسترسی

و الحاقتجمیع

فشرده سازی

Column Baseو الحاقتجمیع

فشرده سازی

بارگزاری

Data Management

BIG DATA COMPONENTS CONT…

Databaseکلید/ارزش

مستند محور

جدول محور

شی گرا

گراف محور

Data Management

BIG DATA COMPONENTS CONT…

Software Development Framework

توسعه

اجرا

آزمون

زمانبندی

پیکربندی

مقیاس پذیر

اجرای موازی

های ابردادهشده غنی

BIG DATA COMPONENTS CONT…

Packaged Analytical Tools

های تحلیلپذیر مقیاس

داده کاوی

آمار

هوش مصنوعی

دسترسی

BIG DATA COMPONENTS CONT…

Process Managementراه حل

زیرساخت

توسعه دهندگان

تحلیل گران

CONCEPTUAL MODEL

سازی ذخیره فضای

داده پایگاه مدل

پردازشی پلتفورم

/ پردازشی دسترسی ابزارهای

فرآیند مدیریت

SOLUTION

APACHE SOLUTION

HDFS (Redundant, Reliable Storage) Hbase (Column base DB)

MapReduce V1 (Cluster mng)

Hive (SQL) Pig (Data Flow) Sqoop (ETL)Mahout (Machine Learning)

Oozie (Workflow) Chukka (Monitoring)Flume (Monitoring)

Zookeeper (Management)

YARN (Cluster mag)

MapReduce V2 (Batch Parallel Processing)

Spark (In Memory Processing)

HADOOP DISTRIBUTED FILE SYSTEM

HDFS

HPA

بسیار فایلهایبزرگ

های  بخشکوچک

Name Node

Dat

a N

ode

ابرداده

Temp File

سلسله مراتبی

Fault Tolerate

نبض

سازماندهی داده

مدیریت یکپارچگی

تصاویر ای  لحظه

HDFSIncoming File

HDFS Client

B1 B2 B3

NameNode n1

n2

n3

n4

Rack 1

n1

n2

n3

Rack 2

n4

n1

n2

n3

Rack 3

n4

Complete

B2B3

B1

B1

B1

B2

B2

B3

B3

MAPREDUCE

MapReduceمدیریت برنامه وظایف اجرایی مدل

نویسیسلسله مراتبی

پایش پیشرفت

موازیمتوالی

Commander

تخصیص وظایف

تخصیص منابع

Map

کلید ساختارارزش

سازی ذخیرهمحلی

مستقل

کار و کسباولیه

Reduce

توزیع فایل خواندشده

تجمیع نتایج

MAPREDUCEData Types

Map

Reduce

Input

Output<K1,V1

>List(<K2,V2>

)

<K2,List(V2)> List(<K3,V3>)

استقالل دادگان

استقالل پردازش

MAPREDUCE(THE SHUFFLE)

MapP1

P2input

MapP1

P2input

ReduceP1

P1Merg

e

ReduceP2

P2Merg

e

Shuffle

MAPREDUCE

ACBDB

(0,A)(1,C)(2,B)(3,D)(4,B)

(A,1)(C,1)(B,1)

(D,1)(B,1)

(A,[1])(B,[1,1])

(C,[1])(D,[1])

(A1)(B,2)(C,1)(D,1)

Input <K1,V1>

Map1

Map2

Shuffle Reduce

List(<K2,V2>) <K2,List(V2)> List(<K3,V3>)

Job Tracker

Client

Task Tracker

Task Tracker

Name Node

Data Node

Data Node

Data Node

Data Node

HADOOP

YARNو داده محلی هم الزام

پردازش

همه تطابق عدمکاربردها

تعداد بودن ثابتها  گره

RestrictionsYet Another Resource Negotiate

SPARKسرعت

باال

سهولت استفاده

روی بر اجراYARN

Sparkدرون حافظه

عمومیت

فراگیری اجرا

BUSINESS INTELLIGENCE

ANALYTICS

BI&A

BI&AIII

BIG DATA MINING TOOLS

Mahout

S4

Storm

MOA

تحلیلی ابزار

METHODOLOGY

BODHTREE

Methodology

مورد کاربرد

چشم انداز

طرح اولیه

فن شناختآوری

نقشه راه

طراحی حل راه

REFERENCEShttp://www.bodhtree.com/http://www.bodhtree.com/resources.phphttps://cwiki.apache.org/confluence/display/ZOOKEEPER/ProjectDescriptionhttps://zookeeper.apache.org/doc/trunk/zookeeperOver.htmlhttp://oozie.apache.orghttp://www.aptude.com/blog/entry/hadoop-vs-mongodb-which-platform-is-better-for-handling-big-datahttp://saphanatutorial.com/how-yarn-overcomes-mapreduce-limitations-in-hadoop-2-0/http://stackoverflow.com/questions/31044575/mapreduce-2-vs-yarn-applicationshttp://www.ibmbigdatahub.com/blog/why-we-need-methodology-data-scienceOracle. (2012). Oracle: Big Data for the Enterprise. Oracle white paper.Oracle. (2013). Big Data Analytics; Advanced Analytics in Oracle Database. WWW.Oracle.com.Gartner. (2014). www.gartner.com.Brown, B., Chui, M., & Manyika, J. (2011). Are you ready for the era of ‘big data’? McKinsey quarterly.Manovich, L. (2011). Trending: The Promises and the Challenges of Big Social Data. Debates in the Digital Humanities. Minneapolis: University of Minnesota Press.Boyd, D., & Crawford, K. (2011). Six provocations for Big Data. Symposium on the Dynamics of the Internet and Society (pp. 1-17). London: Oxford Internet Institute.Bughin, J., Chui, M., & Manyika, J. (2010). Clouds, big data, and smart assets: Ten tech-enabled business trends to watch. McKinsey Quarterly, 1-14.Bitterer, A. (2011). Hype Cycle for Business Intelligence. Gartner Inc.Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business Intelligence and Analytics: From Big Data to Big Impact. MIS Quarterly, 1165-1188.Dean, J., & Ghemawat, S. (2004). MapReduce: simplified data processing on large clusters. OSDI, 137-150.Tankard, C. (2012). Big data security. Network Security, 5-8.Rothnie Jr, J. B., Bernstein, P. A., Fox, S., Goodman, N., Hammer, M., Landers, T. A., et al. (1980). Introduction to a System for Distributed Databases. Database System, 1-17.Dewitt, D. J., Ghandeharizadeh, S., Schneider, D. A., Bricker, A., Hsiao, H. I., & Rasmussen, R. (1990). The Gamma Database Machine Project. IEEE Transaction on Knowledge and Data Engineering, 44-62.Loshin, D. (2013). Big data analytucs; from strategic planning to enterprise integration with tools, technigues, NoSQL, and graph. Morgan Kaufmann.Leskovec, J., Rajaraman, A., & Ullm, J. D. (2014). Mining of Massive Datasets. Cambridge University Press.Sawant, N., & Shah, H. (2013). Big data application, architecture Q&A. Apress.

Definition

Adaptation

Architecture

Solutions

Analytics

Methodology

Recommended