65
Big Data 101 #BugDay2013 @somkiat -- สยามชํานาญกิจ --

Big data 101

Embed Size (px)

DESCRIPTION

Introduction to Big Data concept that talk at BugDay Bangkok 2013

Citation preview

Page 1: Big data 101

Big Data 101#BugDay2013

@somkiat-- สยามชานาญกจ --

Page 2: Big data 101

Gartner Identify Top Technology 2013

● Big Data● Modern Information Infrastructure● Semantic Technology● The Logical Data Warehouse● NoSQL DBMS● In-Memory Computing● Information *

http://www.gartner.com/newsroom/id/2359715

Page 3: Big data 101

คาถามท 1

ขอมลมาจากไหน ?

Page 4: Big data 101

ขอมลมาจากไหน ?

Data Social Media

VDO

Mobile usage

Social Media

PhotoPurchase

Tx

Scientist

Sensor - Location- Climate

Page 5: Big data 101

ขอมลมาจากไหน

http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/

Page 6: Big data 101

ขอมลมาจากไหน

http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/

Page 7: Big data 101

ขอมลมาจากไหน

http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/

Page 8: Big data 101

ขอมลมาจากไหน

http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/

Page 9: Big data 101

การเตบโตของขอมล

http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/

Page 10: Big data 101

คาถามท 2

ทาไม Big Data ถงมความสาคญละ !!

Page 11: Big data 101

ทาไมตอง Big Data ?

สนๆ งายๆ คอการวเคราะห

เพอการตดสนใจ

เพอสรางองคความร

Page 12: Big data 101

คาเหลานแตกตางกนอยางไร ?

Data = ?Information = ?Knowledge = ?

Decision = ?

Page 13: Big data 101

คาเหลานแตกตางกนอยางไร ?

Data = ความจรงInformation = ความจรงบางสวนกบความร

Knowledge = สงทคณร Decision = การตดสนใจเพอลงมอทา

Page 14: Big data 101

Model

http://www.infogineering.net/data-information-knowledge.htm

Page 15: Big data 101

คาถามท 3

Big Data คออะไร

Page 16: Big data 101

Big Data คออะไร

Wikipedia

Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process the data within a tolerable elapsed time.

Page 17: Big data 101

Big Data คออะไร

● ขอมลคออะไร ( What )● จดการมนอยางไร ( How )● เพอเปดใหรวาขอมลมนเกยวกบอะไร ( What with )

Page 18: Big data 101

Big Data คออะไร

● การรวบรวมขอมล● การวเคราะห● การดงสวนทมประโยชนออกมา● การหาวธการใหมๆ มาใชงาน● การใชงานขอมล● การปรบปรงทางธรกจ● การวางแผนงาน● ทาใหโลกนาอยขน

Page 19: Big data 101

Big Data คออะไร

● การรวบรวมขอมล● การวเคราะห● การดงสวนทมประโยชนออกมา● การหาวธการใหมๆ มาใชงาน● การใชงานขอมล● การปรบปรงทางธรกจ● การวางแผนงาน● ทาใหโลกนาอยขน

UP to YOU

Page 20: Big data 101

คณลกษณะของ Big Data (3V)

● Volume● Variety● Velocity

Page 21: Big data 101

คณลกษณะของ Big Data

● Volume○ ปรมาณขอมลทมจานวนมากขนๆๆๆๆๆๆ○ GB -> TB -> PB -> EB -> ZB -> YB

● EB = Zettabyte● 1 EB = Trillion GB● 1 EB = Billion TB

Page 22: Big data 101

คณลกษณะของ Big Data

● Variety○ รปแบบขอมลทหลายหลาย

■ Structured■ Unstructured■ Semistructured

○ มวธการนามาใชงานอยางไร○ VDO, Photo, Audio, Document, Text○ Log, Monitoring○ Stock reacord, Transaction

○ Need pre-processing and data cleaning

Page 23: Big data 101

คณลกษณะของ Big Data

● Velocity○ ความรวดเรวในการประมวลผล วเคราะห○ Batch, Near real time○ Stream processing○ Need real time○ Online VDO, Location tracking, AR

Page 24: Big data 101

Real time processing model

http://www-01.ibm.com/software/data/bigdata/

Page 25: Big data 101

3V

Page 26: Big data 101

คณลกษณะของ Big Data ( IBM ) 4V

● Volume● Variety● Velocity● Veracity

○ ความนาเชอถอของขอมล○ คณภาพ○ แหลงทมา○ Noise/Outlier

Page 27: Big data 101

Example of Veracity issue

● Twitter ○ Message from Spam bot ?○ Message from human ?○ Fake account ?

Page 28: Big data 101

4V

Value

Volume

Variety

Velocity

Veracity

Page 29: Big data 101

สรางความทาทาย

● ไมร Volume และ Variety ของขอมล● จดเกบขอมลอยางไร● วเคราะหขอมลทงหมดอยางไร ใชเวลาเทาไร● หาชดขอมลทมความสาคญอยางไร● จะทดสอบอยางไร

Page 30: Big data 101

สรางความทาทาย

● Visualization● Big Data application● แนวทางการวเคราะหขอมล● ศกษาพฤตกรรมของผบรโภค● Public data● New information และ Data service

Page 31: Big data 101

สรางเทคโนโลย

● ถก● ขยายไดงาย● เรว● ทางานบน memory ขนาดใหญ● ทจดเกบขอมลรองรบขอมล Volume, Variety● Parallel● Clustering● Cloud

Page 32: Big data 101

เทคโนโลย

● การประมวลผล○ MapReduce

● การจดเกบขอมล○ Distributed File System○ Object Storage○ NoSQL

Page 33: Big data 101

Distributed File System

● เกบขอมลแบบถาวร● แยกขอมลออกเปนสวนๆ เชน file, shard, chunk,และ block เปนตน

● สนบสนนการเขาถง file server และ remote server

● สนบสนน concurrency● สนบสนน distribution● สนบสนน replication

Page 34: Big data 101

Distributed File System

● Hadoop File System (HDFS)● GlusterFS● MogileFS● Google File System ( GFS )● MooseFS

Page 35: Big data 101

HDFS Architecture

http://www.ibm.com/developerworks/library/wa-introhdfs/

Page 36: Big data 101

NoSQL

● Key-value○ Memcached, Redis, Riak

● Column○ Cassandra, HBase

● Graph○ Neo4J, FlockDB

● Document○ MongoDB, CouchDB

Page 37: Big data 101

สรางโอกาส

● ทางธรกจ● ทางดาน Testing

http://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452

Page 38: Big data 101

Big Testing

http://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452

Page 39: Big data 101

Big Testing

http://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452

Big Mistake

Page 40: Big data 101

Big Testing

● ถา Big Data คอ น ามน● ดงนน Big Testing คอ สวนททาใหรถวงไปขางหนาไดอยางถกตอง

Page 41: Big data 101

Cycle of Big Data

ความตองการเพมสง ทาใหเกดเทคโนโลย เพอรองรบ

นาไปใชเพอเพมประสทธภาพในหลากหลายองคกร

ไดผลลพธทด แตยงตองการสงขนไปเรอย

Page 42: Big data 101

ขอแนะนาในการสรางระบบ

● คณเกบขอมลอะไรบาง● ผลการวเคราะหแสดงออกมาในรปแบบทเขาใจงาย● ระบบตองเสถยร เมอมผใชจานวนมากขน● จาไววาระบบหลงบานเลกๆ จะแกปญหาทกอยางไมได ● การสราง software ทวายาก แตการทจะให Software หรอ

Service นนทางานไปไดยากยงกวา

Page 43: Big data 101

กฎของ Big Data

● ทาการวเคราะหไดรวดเรว● ดแลขอมลเพยงชดเดยว● ตองใชขอมลทหลายหลาย● ขอมลจะมคาเมอเวลาผานไป ดงนนหามลบทง● วางแผนสาหรบการเดบโตแบบกาวกระโดด● แกปญหาใหถกจด● ตองทางานรวมกบมนษยเสมอ● Big Data คอการ transform business เหมอนททากบระบบ IT

Page 44: Big data 101

ขอควรจา

● จะเรม Big Data ไมใชการ migrate ระบบทมอยเดม เชน Data Warehouse

● จะเรม Big Data เมอ 3V + Technology ทมอยไมรองรบ

Page 45: Big data 101

รไวใชวา !!

● Big data that is very small● Large datasets that aren’t big

http://mike2.openmethodology.org/wiki/Big_Data_Definition

Page 46: Big data 101

แนวคดการสรางระบบจดการขอมล

http://www.slideshare.net/nathanmarz/the-secrets-of-building-realtime-big-data-systems

โดย Nathan Marz

Page 47: Big data 101

ขอมล

Raw Data

View 1

View 2

View 3

Page 48: Big data 101

ขอมลจากระบบ Twitter

Tweet

URL

Retweet

Trend Topic

Page 49: Big data 101

คณสมบตของระบบขอมล

● มความเสถยร จาก Server ลม และ Human error● การอานและแกไขใชเวลานอย ( Low latency )● ขยายไดงาย ( Scalable )● เรยบงาย● เพมความสามารถไดงาย● สามารถทาการวเคราะหไดงาย● ดแลงาย● Debug งาย

Page 50: Big data 101

Architecture

● Batch Layer● Speed Layer

Page 51: Big data 101

Batch Layer

● ประมวลผลนานๆ ( High latency )● ขยายในแนวนอน ( Horizontal )● เรยบงาย● เชน Apache Hadoop

○ MapReduce○ ทางานแบบขนาน○ ขยายระบบไดงาย

Page 52: Big data 101

Batch Layer

● ขอมลทงหมดอยใน Master data set● ขอมลจะถกเพมไปเรอยๆ● ดงนน

view = function( Master data set )

Page 53: Big data 101

Batch Layer

ขอมลใหมBatch

process

View 1

View 2

View 3

ขอมลทงหมด

เพมขอมล ดงขอมล

Page 54: Big data 101

Batch Layer

● เสถยร● ขยายไดงาย● เพมความสามารถไดงาย● เรยบงาย● ดแลรกษาไดงาย● Debug งาย● ใชเวลาการ อาน และ แกไขสง

Page 55: Big data 101

Speed Layer

● แกไขเรอง เวลาการทางานทสงของ Batch layer

Page 56: Big data 101

Speed Layer

● ตองการวธการจดการ● วธการสงขอมล● ฐานขอมลสาหรบการอาน และ เขยน ทรวดเรว

○ Riak○ Cassandra○ HBase

● ทาใหเกดความซบซอน !!

Page 57: Big data 101

การทางานรวมกน

Batch Layer

Speed Layer

Merge

Page 58: Big data 101

ผลทไดรบ

● Batch layer ทางานชา แตไดความถกตอง● Speed layer ทางานรวดเรว● เมอนาทงสอง layer มาทางานรวมกน คอ

"Eventual Accuracy"

Page 59: Big data 101

อยาลม Data model

● ในเวลาหนงๆ ขอมลแตละ record ตองไมซ ากน

Page 60: Big data 101

Data model

● เวลา 1 นาย A อยกรงเทพ ● เวลา 1 นาย B อยกรงเทพ● เวลา 10 นาย A อยเชยงใหม

Page 61: Big data 101

Data model

● ขอมลใน Master จะตองเพมเขาไปใหมเสมอ● ตองมขอมล History ทงหมดเสมอ

○ ใชในการวเคราะห○ แกไขเมอทางานผดพลาด

Page 62: Big data 101

แนะนา Storm

● Framework สาหรบการประมวลผลขอมลแบบ Real time

● Open source● Free● http://storm-project.net/

Page 63: Big data 101

โครงสรางของ Storm

Page 64: Big data 101

This is Big Data

You'll never walk alone

Page 65: Big data 101

Big Data is Art

Thank you