28
서울 하둡 사용자 모임 발표자료 20141최종욱 [email protected]

서울 하둡 사용자 모임 발표자료

Embed Size (px)

DESCRIPTION

서울 하둡 사용자 모임 발표자료입니다. 다음의 세가지 주제를 다룹니다. 1. 모든 사용자를 위한 하둡 2. 하둡 2.0, 무엇이 달라졌나 3. 하이브 0.13 프리뷰 소개

Citation preview

Page 1: 서울 하둡 사용자 모임 발표자료

서울 하둡 사용자 모임 발표자료  

2014년 1월  최종욱 [email protected]    

Page 2: 서울 하둡 사용자 모임 발표자료

오늘의 코스  

1.  모든 사용자를 위한 하둡  

2.  하둡 2, 무엇이 달라졌나

3.  하이브 0.13 프리뷰 소개  

Page 3: 서울 하둡 사용자 모임 발표자료

모든 사용자를 위한 하둡  

중소기업과 부서, 학술 연구도  상용 하둡 배포판을 사용하려면?  

Page 4: 서울 하둡 사용자 모임 발표자료

빅데이터의 문턱은 높다  사장님 曰 “빅데이터 우리에게 적합한지 알아봐”  전문 업체에게 물어보면 수천만원, 수십 TB, 장비 수십대, 집단 교육, 검증 기간을 이야기하는데 큰 투자엔 큰 수익이 있어야 하지만 확신이 없다.  

Page 5: 서울 하둡 사용자 모임 발표자료

점진적 적용 계획  

단일 서버  • 무료  • 가상머신  • 낮은 성능  • 1대  • 지원 없음  • HDP  Sandbox  

임대 서버  • 수백만원  • 유동/소량  • 낮은 보안  • 4대 이상  • 지원 포함  • HDInsight  

내부 서버  • 수천만원  • 고정/대량  • 높은 보안  • 10대 이상  • 지원 별도  • HDP  for  Win/Linux  

투자 대비 이익이 크면 다음 단계로,  적으면 이전 단계로  

Page 6: 서울 하둡 사용자 모임 발표자료

빅데이터의 악몽  “김대리,  내일 아침까지 보고서 준비 해 와”  •  건네받은 자료는 수백GB  •  할 줄 아는 건 오피스 뿐  •  사무실에는 고물 컴퓨터    빅데이터 기술이 김대리를 도울 수 있을까?  

야근이다!  

Page 7: 서울 하둡 사용자 모임 발표자료

빅데이터 맛보기  1.  HD인사이트 가입  

(24만원 쿠폰 증정,  시간당 사용료 몇천원)  

2.  파일 업로드  3.   엑셀에서 불러오기  4.   파워포인트 자료 만들기  

Page 8: 서울 하둡 사용자 모임 발표자료

엑셀-­‐하이브 연동 기능  하이브 ODBC 드라이버를 설치하면 엑셀에 하이브 쿼리 창이 추가된다.  가져올 필드, 선택 조건, 통계 함수 등을 선택하면 자동으로 하이브 쿼리를 생성하며 그 결과를 가져온다.  가져온 데이터로 그래프를 만들어 파워포인트에 붙여넣을 수 있다.  

Page 9: 서울 하둡 사용자 모임 발표자료

환상 궁합  

마이크로소프트  •  기존에 오피스, 서버 담당  •  저렴한 가격의 호스팅  •  소비자에게 익숙한 기술  •  오픈소스 개발에 참여  

호튼웍스  •  기존에 하둡 담당  •  강력한 하둡 성능  •  기존 제품과 호환성 담보  •  오픈소스 파트너십을 리딩  

Page 10: 서울 하둡 사용자 모임 발표자료

문턱 비용  

기존 방법  다룰 데이터    수TB 이상  준비 기간      몇 주  -­‐-­‐-­‐-­‐  컴퓨터 수십대    수천만원  전문가        수천만원  연간 사용료    수천만원  -­‐-­‐-­‐-­‐  총 비용        수천만원  

HD인사이트  다룰 데이터    수GB  준비 기간      몇 시간  -­‐-­‐-­‐-­‐  있는 컴퓨터    0원  있는 직원      0원  월간 사용료    수백만원  --­‐-­‐-­‐  총 비용        수백만원  

Page 11: 서울 하둡 사용자 모임 발표자료

엑셀 분석 이상을 원한다면  

전용 분석 프로그램  웹사이트,  윈도 프로그램 등  개발자를 재교육하여 추가 개발  하둡 관리 서비스    >  배포판 사업자의 일  

범용 분석 프로그램  SAS,  SAP,  MicroStrategy 등  제조사와 협력하여 추가 개발  하둡 관리 서비스    > 배포판 사업자의 일  

Page 12: 서울 하둡 사용자 모임 발표자료

Q.  클라우드 환경에 최적화하는 방법  

기본에 충실  •  각 배포판별 권장 사양에 맞추어 클러스터를 구성.  

•  특히 가상 머신을 쓰면 디스크 및 네트워크에서 생각하지 못한 제약이 생길 수 있음.  

또는 전용 서비스 구매  •  이미 각 배포판에 최적화된 사양을 제공.  

•  대개 배포판 사업자의 기술 지원도 포함됨.  

Page 13: 서울 하둡 사용자 모임 발표자료

각 배포판별 클라우드 예시 사양  

HDP   C 배포판   M 배포판  

인스턴스 타입   Azure  A3   AWS  EC2  hs1.8xlarge   물리 서버 기준  

vCPU   8   16   8  

메모리   14GB   117GB   32GB  

저장소   4  x  1TB   24  x  2TB   12  x  2TB  

네트워크   1G   10G   2  x  1G  

Page 14: 서울 하둡 사용자 모임 발표자료

하둡 2, 무엇이 달라졌나  

빅데이터 운영체제로 거듭난 하둡  

Page 15: 서울 하둡 사용자 모임 발표자료

하둡 1의 제한들  •  대안 패러다임과 서비스에 대한 지원 부족  

– 모든 것들을 맵리듀스처럼 만든다  – 맵리듀스에서 반복적인 작업은 10배나 느리다  

•  확장성  – 최대 클러스터 크기가 5천대 정도  – 최대 동시 작업 수는 4만개 정도  

•  가용성  – 실패하면 대기중이거나 진행중인 작업을 중단시킨다  

•  자원을 맵과 리듀스 단위로만 할당  – 자원 활용에 있어서 비효율적  

Page 16: 서울 하둡 사용자 모임 발표자료

HADOOP  1.0  

HDFS  (redundant,  reliable  storage)  

MapReduce  (cluster  resource  management  

 &  data  processing)  

HDFS2  (redundant,  highly-­‐available  &  reliable  storage)  

YARN  (cluster  resource  management)  

MapReduce  (data  processing)  

Others  

HADOOP  2.0  

단일 목적 시스템  배치 응용  

다목적 플랫폼  배치,  인터랙티브,  온라인,  스트리밍,  …  

하둡 2 다목적 작업 플랫폼  

Page  16  

Page 17: 서울 하둡 사용자 모임 발표자료

© Hortonworks Inc. 2014

얀 (YARN)

Page  17  

유연  인터랙티브와 스트리밍 같은, 맵리듀스(배치) 이상의 다른 목적으로 만들어진 데이터 처리 모델을 지원  

효율  기존 하드웨어에서 작동하는 하둡 내에서 처리하고 예측 가능한 성능과 서비스 품질을 제공  

공유  안정적이고, 신뢰성 있으며, 보안된 기초와 여러 작업간에 공유된 수행 서비스를 제공  

하둡 2.0의 데이터 운영 체제  

하둡 내에서 네이티브로 돌아가는 데이터 프로세싱 엔진들  배치  

MapReduce  인터랙티브  

Tez  인메모리  Spark  

그래프  Giraph  

SAS  LASR,  HPA  

온라인  HBase,  Accumulo  

 기타    

HDFS:  중복되며,  신뢰성 있는 저장소  

얀:  클러스터 자원 관리  

스트리밍  Storm  

Page 18: 서울 하둡 사용자 모임 발표자료

© Hortonworks Inc. 2014

얀: 공유 서비스로 효율화 • 야후! 는 얀을 사용한다

• 4만개 이상의 노드가 365PB 의 데이터에 걸쳐 얀을 사용중

• 매일 ~40만개 작업을 수행하여 천만시간의 연산시간을 달성

• 얀 사용시 일일 노드 사용에서 60% – 150% 의 성능 향상 달성

• 증가된 활용성 때문에 코로케이션을 제거 (~1만개 노드 규모)

• 보다 자세한 사항은 YARN SOCC 2013 문서를 참고

Page 19: 서울 하둡 사용자 모임 발표자료

Page 19

. . . . . DataNode DataNode DataNode

Acave

NameNode

Standby

NameNode

JournalNode JournalNode

JournalNode

Shared Edits

Write Read

Monitor liveness and

health. Manage HA

state.

Monitor liveness and

health. Manage HA

state.

ZKFC ZKFC

ZooKeeper ZooKeeper

ZooKeeper

ZooKeeper Service Monitor and try to take

active lock Monitor and maintain

active lock

HDFS 2.0 고가용성

Page 20: 서울 하둡 사용자 모임 발표자료

하이브 0.13  프리뷰  

얼마나 빨라졌고, 어떻게 빨라졌나  

Page 21: 서울 하둡 사용자 모임 발표자료

가장 많은 오해  •  “스팅어는 하이브랑 다르죠?”  

– 스팅어 = 하이브 새 버전을 이끄는 오픈소스 커뮤니티  – 스팅어 1단계 = 하이브 0.11  – 스팅어 2단계 = 하이브 0.12  – 스팅어 3단계 = 하이브 0.13  

•  “스팅어는 호튼웍스가 따로 만들죠?”  – 여전히 아파치 하이브  – 마이크로소프트,  SAP, 페이스북 등과 함께 제작중  – 오히려 임팔라가 아파치 재단에서 나와서 따로 제작됨  

Page 22: 서울 하둡 사용자 모임 발표자료

내부 테스트 결과  •  hcp://hortonworks.com/blog/

announcing-­‐sanger-­‐phase-­‐3-­‐technical-­‐preview/  

•  상당한 성능 향상 효과  

•  주요 원인  –  맵리듀스 병목 제거  –  불필요한 기록 최소화  –  벡터처리 범위 확대  –  가상머신 미리 대기  –  네임노드 일부 캐시  –  압축 성능 향상  –  …  

Page 23: 서울 하둡 사용자 모임 발표자료

맵리듀스 병목 제거  •  기존에는 맵리듀스로 작업하면 불필요하게 맵 작업을 하기 위해 디스크에 전부 기록해야 해서 느렸다.  

•  맵리듀스를 보다 작은 단위로 쪼개어 리듀스-­‐리듀스가 가능하도록 만들었다.  

Page 24: 서울 하둡 사용자 모임 발표자료

미리 대기 및 네임노드 캐시  •  요청이 올 때 자식 컨테이너를 만들어서 느렸다.  이젠 컨테이너를 미리 만들어서 바로 응답한다.  

•  대용량 자료를 처리하면 네임노드에 병목현상이 생긴다. 위치 자료를 캐시해서 네임노드 병목을 없앴다.  

Page 25: 서울 하둡 사용자 모임 발표자료

압축 성능 향상  •  ORCFile 에서 압축 성능이 높은 Gzip을 적용,  Parquet에서는 Snappy가 기본인 것과 대조적이다.  

•  Gzip은 압축률이 높지만 Snappy는 CPU 점유율이 낮은 것이 특징이다.  

•  Snappy는 GPL이라서 사용자가 직접 설치해야 한다.  “Snappy  naave  library  not  loaded”라는 메시지가 나오면 성능이 떨어진다.  

Page 26: 서울 하둡 사용자 모임 발표자료

컬럼 단위 저장과 벡터화  •  데이터를 레코드 단위가 아닌,  컬럼 단위로 저장하여 필요한 컬럼만 읽는다.  

•  컬럼 단위로 처리할 때에 벡터화를 적용해서 객체 재활용율을 높여 처리 성능을 최적화한다.  

Page 27: 서울 하둡 사용자 모임 발표자료

결론  

•  하이브 =  스팅어  •  예전 하이브에서 빠진 기능은 없고, 새 기능은 많으며,  성능은 훨씬 더 좋다.  

•  다른 경쟁 제품들은 조인, 분석 함수 등 핵심 기능을 없애고 성능을 얻은 뒤에 기능을 추가하는 방식으로 접근한다.  

Page 28: 서울 하둡 사용자 모임 발표자료

정리  1.   모든 사용자를 위한 하둡: 샌드박스, 서버 임대와 오피스 호환 등의 기술로 가볍게 하둡을 써볼 수 있다.  

2.   하둡 2, 무엇이 달라졌나:  얀의 도입으로 더 적은 노드로 더 많은 일을 하고,  HDFS  HA의 도입으로 클러스터가 더 안전해졌다.

3.   하이브 0.13 프리뷰 소개: 다양한 최적화 기법의 도입으로 성능이 대폭 향상되었다.