16
Big Data & Hadoop

Big Data & Real-time Data Mininghompi.sogang.ac.kr/jinhwakim/bic/Big_dat… · PPT file · Web view · 2013-11-10Data Type by Sectors Expected Value using Big Data Big Data Cases

Embed Size (px)

Citation preview

Big Data & Hadoop

1. Data Type by Sectors

Expected Value using Big Data

Big Data CasesCase 1: Google Flue

Case 2: SNS 분석 응용

Case 3: Social Metrics Insight

4. 빅데이터 활용 현황

SNS 데이터 분석 활용

5. Hadoop•하둡의 두가지 큰 요소는 분산처리 와 분산저장 이다 . 여러개의 개인 컴퓨터를 병열로 연결 , 통합하는 기술이다 .

•Hadoop 은 아래의 4 가지 이슈를 해결 하기 위해 구글에서 만든 GFS 를 기반으로 태어난 분산 시스템이다 . Hadoop 은 open 소스 이기 때문에 라이센스 비용이 필요지 않으며 또한 초기에 작은 클러스터를 구성하여 운영 할 수도 있고 데이터의 증가에 따라 시스템 확장이 용이 하도록 설계가 되었기 때문에 일반적인 상용 데이터 분석 솔루션에 비하여 초기 비용이 저렴 하다는 장점이 있다 . - 대용량 데이터의 관리 적합한 시스템 . - 대용량 데이터의 분석에 맞는 시스템 . - 초기 구축 비용을 작게 하여 도입이 가능 . - 데이터 증가에 따른 확장이 용이한 시스템 .

Hadoop 의 구성

Hadoop 의 2 가지 구성 요소 : HDFS(Hadoop Distributed File System), Map/Reduce

– HDFSJAVA 로 개발된 순수 JAVA 파일 시스템으로 페타 바이트 이상의 대용량 데이터를 저장 하는데 있어 효율적입니다 . 시스템 확장이 용이 하며 한두개의 데이터 노드 장애에도 전혀 문제없이 정상적으로 동작 하며 운영중인 시스템에서의 노드의 추가 /제거 또한 간단히 할 수 있습니다 .

– Map/ReduceMap/Reduce 는 대량의 자원을 다루는 분산 /병렬 시스템의 효율적인 지원을 위한 목적으로 Google 에서만들어낸 프로그래밍 모델입니다 .

하둡 구성 요소

하둡 기술

6. Hadoop 의 사용 예• 대용량 데이터 통계 및 분석

ex) 서비스 활동성 분석 , 사용자 이탈율 분석 등• 개인 타케팅 광고 .• Hadoop 기반 데이터 웨어 하우스 구성 .• 대용량 실시간 로그 수집 .

FaceBook• 현재 Hadoop 기반의 데이터 웨어 하우스 운영 중 .• FaceBook 이 개발한 로그 수집 프레임워크인 scribe 를 사용하여

Hadoop 에 로그를 저장 .• Hadoop 을 이용한 데이터 마이닝 작업을 활발히 하고 있으며 실

서비스에 이용 .

트위터• scribe 를 이용해서 로그를 Hadoop 저장 .• PIG 를 사용해 데이터 분석 .• Hbase 를 이용해 사용자 검색 기능 강화 .

Hadoop 사례

영화 추천 사례