Big Data 101#BugDay2013
@somkiat-- สยามชานาญกจ --
Gartner Identify Top Technology 2013
● Big Data● Modern Information Infrastructure● Semantic Technology● The Logical Data Warehouse● NoSQL DBMS● In-Memory Computing● Information *
http://www.gartner.com/newsroom/id/2359715
คาถามท 1
ขอมลมาจากไหน ?
ขอมลมาจากไหน ?
Data Social Media
VDO
Mobile usage
Social Media
PhotoPurchase
Tx
Scientist
Sensor - Location- Climate
ขอมลมาจากไหน
http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
ขอมลมาจากไหน
http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
ขอมลมาจากไหน
http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
ขอมลมาจากไหน
http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
การเตบโตของขอมล
http://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
คาถามท 2
ทาไม Big Data ถงมความสาคญละ !!
ทาไมตอง Big Data ?
สนๆ งายๆ คอการวเคราะห
เพอการตดสนใจ
เพอสรางองคความร
คาเหลานแตกตางกนอยางไร ?
Data = ?Information = ?Knowledge = ?
Decision = ?
คาเหลานแตกตางกนอยางไร ?
Data = ความจรงInformation = ความจรงบางสวนกบความร
Knowledge = สงทคณร Decision = การตดสนใจเพอลงมอทา
Model
http://www.infogineering.net/data-information-knowledge.htm
คาถามท 3
Big Data คออะไร
Big Data คออะไร
Wikipedia
Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process the data within a tolerable elapsed time.
Big Data คออะไร
● ขอมลคออะไร ( What )● จดการมนอยางไร ( How )● เพอเปดใหรวาขอมลมนเกยวกบอะไร ( What with )
Big Data คออะไร
● การรวบรวมขอมล● การวเคราะห● การดงสวนทมประโยชนออกมา● การหาวธการใหมๆ มาใชงาน● การใชงานขอมล● การปรบปรงทางธรกจ● การวางแผนงาน● ทาใหโลกนาอยขน
Big Data คออะไร
● การรวบรวมขอมล● การวเคราะห● การดงสวนทมประโยชนออกมา● การหาวธการใหมๆ มาใชงาน● การใชงานขอมล● การปรบปรงทางธรกจ● การวางแผนงาน● ทาใหโลกนาอยขน
UP to YOU
คณลกษณะของ Big Data (3V)
● Volume● Variety● Velocity
คณลกษณะของ Big Data
● Volume○ ปรมาณขอมลทมจานวนมากขนๆๆๆๆๆๆ○ GB -> TB -> PB -> EB -> ZB -> YB
● EB = Zettabyte● 1 EB = Trillion GB● 1 EB = Billion TB
คณลกษณะของ Big Data
● Variety○ รปแบบขอมลทหลายหลาย
■ Structured■ Unstructured■ Semistructured
○ มวธการนามาใชงานอยางไร○ VDO, Photo, Audio, Document, Text○ Log, Monitoring○ Stock reacord, Transaction
○ Need pre-processing and data cleaning
คณลกษณะของ Big Data
● Velocity○ ความรวดเรวในการประมวลผล วเคราะห○ Batch, Near real time○ Stream processing○ Need real time○ Online VDO, Location tracking, AR
Real time processing model
http://www-01.ibm.com/software/data/bigdata/
3V
คณลกษณะของ Big Data ( IBM ) 4V
● Volume● Variety● Velocity● Veracity
○ ความนาเชอถอของขอมล○ คณภาพ○ แหลงทมา○ Noise/Outlier
Example of Veracity issue
● Twitter ○ Message from Spam bot ?○ Message from human ?○ Fake account ?
4V
Value
Volume
Variety
Velocity
Veracity
สรางความทาทาย
● ไมร Volume และ Variety ของขอมล● จดเกบขอมลอยางไร● วเคราะหขอมลทงหมดอยางไร ใชเวลาเทาไร● หาชดขอมลทมความสาคญอยางไร● จะทดสอบอยางไร
สรางความทาทาย
● Visualization● Big Data application● แนวทางการวเคราะหขอมล● ศกษาพฤตกรรมของผบรโภค● Public data● New information และ Data service
สรางเทคโนโลย
● ถก● ขยายไดงาย● เรว● ทางานบน memory ขนาดใหญ● ทจดเกบขอมลรองรบขอมล Volume, Variety● Parallel● Clustering● Cloud
เทคโนโลย
● การประมวลผล○ MapReduce
● การจดเกบขอมล○ Distributed File System○ Object Storage○ NoSQL
Distributed File System
● เกบขอมลแบบถาวร● แยกขอมลออกเปนสวนๆ เชน file, shard, chunk,และ block เปนตน
● สนบสนนการเขาถง file server และ remote server
● สนบสนน concurrency● สนบสนน distribution● สนบสนน replication
Distributed File System
● Hadoop File System (HDFS)● GlusterFS● MogileFS● Google File System ( GFS )● MooseFS
HDFS Architecture
http://www.ibm.com/developerworks/library/wa-introhdfs/
NoSQL
● Key-value○ Memcached, Redis, Riak
● Column○ Cassandra, HBase
● Graph○ Neo4J, FlockDB
● Document○ MongoDB, CouchDB
สรางโอกาส
● ทางธรกจ● ทางดาน Testing
http://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
Big Testing
http://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
Big Testing
http://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
Big Mistake
Big Testing
● ถา Big Data คอ น ามน● ดงนน Big Testing คอ สวนททาใหรถวงไปขางหนาไดอยางถกตอง
Cycle of Big Data
ความตองการเพมสง ทาใหเกดเทคโนโลย เพอรองรบ
นาไปใชเพอเพมประสทธภาพในหลากหลายองคกร
ไดผลลพธทด แตยงตองการสงขนไปเรอย
ขอแนะนาในการสรางระบบ
● คณเกบขอมลอะไรบาง● ผลการวเคราะหแสดงออกมาในรปแบบทเขาใจงาย● ระบบตองเสถยร เมอมผใชจานวนมากขน● จาไววาระบบหลงบานเลกๆ จะแกปญหาทกอยางไมได ● การสราง software ทวายาก แตการทจะให Software หรอ
Service นนทางานไปไดยากยงกวา
กฎของ Big Data
● ทาการวเคราะหไดรวดเรว● ดแลขอมลเพยงชดเดยว● ตองใชขอมลทหลายหลาย● ขอมลจะมคาเมอเวลาผานไป ดงนนหามลบทง● วางแผนสาหรบการเดบโตแบบกาวกระโดด● แกปญหาใหถกจด● ตองทางานรวมกบมนษยเสมอ● Big Data คอการ transform business เหมอนททากบระบบ IT
ขอควรจา
● จะเรม Big Data ไมใชการ migrate ระบบทมอยเดม เชน Data Warehouse
● จะเรม Big Data เมอ 3V + Technology ทมอยไมรองรบ
รไวใชวา !!
● Big data that is very small● Large datasets that aren’t big
http://mike2.openmethodology.org/wiki/Big_Data_Definition
แนวคดการสรางระบบจดการขอมล
http://www.slideshare.net/nathanmarz/the-secrets-of-building-realtime-big-data-systems
โดย Nathan Marz
ขอมล
Raw Data
View 1
View 2
View 3
ขอมลจากระบบ Twitter
Tweet
URL
Retweet
Trend Topic
คณสมบตของระบบขอมล
● มความเสถยร จาก Server ลม และ Human error● การอานและแกไขใชเวลานอย ( Low latency )● ขยายไดงาย ( Scalable )● เรยบงาย● เพมความสามารถไดงาย● สามารถทาการวเคราะหไดงาย● ดแลงาย● Debug งาย
Architecture
● Batch Layer● Speed Layer
Batch Layer
● ประมวลผลนานๆ ( High latency )● ขยายในแนวนอน ( Horizontal )● เรยบงาย● เชน Apache Hadoop
○ MapReduce○ ทางานแบบขนาน○ ขยายระบบไดงาย
Batch Layer
● ขอมลทงหมดอยใน Master data set● ขอมลจะถกเพมไปเรอยๆ● ดงนน
view = function( Master data set )
Batch Layer
ขอมลใหมBatch
process
View 1
View 2
View 3
ขอมลทงหมด
เพมขอมล ดงขอมล
Batch Layer
● เสถยร● ขยายไดงาย● เพมความสามารถไดงาย● เรยบงาย● ดแลรกษาไดงาย● Debug งาย● ใชเวลาการ อาน และ แกไขสง
Speed Layer
● แกไขเรอง เวลาการทางานทสงของ Batch layer
Speed Layer
● ตองการวธการจดการ● วธการสงขอมล● ฐานขอมลสาหรบการอาน และ เขยน ทรวดเรว
○ Riak○ Cassandra○ HBase
● ทาใหเกดความซบซอน !!
การทางานรวมกน
Batch Layer
Speed Layer
Merge
ผลทไดรบ
● Batch layer ทางานชา แตไดความถกตอง● Speed layer ทางานรวดเรว● เมอนาทงสอง layer มาทางานรวมกน คอ
"Eventual Accuracy"
อยาลม Data model
● ในเวลาหนงๆ ขอมลแตละ record ตองไมซ ากน
Data model
● เวลา 1 นาย A อยกรงเทพ ● เวลา 1 นาย B อยกรงเทพ● เวลา 10 นาย A อยเชยงใหม
Data model
● ขอมลใน Master จะตองเพมเขาไปใหมเสมอ● ตองมขอมล History ทงหมดเสมอ
○ ใชในการวเคราะห○ แกไขเมอทางานผดพลาด
แนะนา Storm
● Framework สาหรบการประมวลผลขอมลแบบ Real time
● Open source● Free● http://storm-project.net/
โครงสรางของ Storm
This is Big Data
You'll never walk alone
Big Data is Art
Thank you