Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
목 차
2014-06 2충북대학교 조완섭
• 메타 데이터• 비즈니스 용어 사전 제작• Hadoop 메타 데이터• 메타 데이터와 프라이버시• 빅데이터 저장소와 기술적 메타 데이터• 빅데이터 이동과 운영 메타 데이터• 기술적 메타데이터와 데이터 흐름 및 영향성 분석• 비구조화된 문서와 메타 데이터를 수집• 빅데이터를 위한 메타데이터 확장• 요약
메타 데이터
메타 데이터의 정의– 조직에서 관심을 갖는 데이터의 특성을 요약한 데이터
– 데이터 항목들의 이름, 생성 및 저장의 위치, 추출 및 통합 과정과 방법, 품질, 조직에서의 가치, 다른 데이터와의 연관성, 프라이버시 등의정보를 포함
2014-06충북대학교 조완섭
Meta data for Big Data ?Knowing what we have ?
False discoveries 방지
메타 데이터
2014-06충북대학교 조완섭
메타 데이터(metadata)의 불일치 =>정보 통합, 분석, 유통의 걸림돌
통합시데이터가 유용한가 ?
항목의 명칭이 다르다
값의 단위가 다르다
동일한 차의분류가 다르다
동일한 의미를다르게 표현함
System-1 System-2
메타데이터1 메타데이터2
메타 데이터
빅데이터와 메타 데이터 관리
– 빅데이터는 기존 데이터에서 데이터의 양과 다양성, 실시간성 측면에서 확대된 것임; 기존 메타 데이터 인프라의구축과 유지관리에 추가적인 과제가 요구됨
2014-06충북대학교 조완섭
DB/DW
정보시스템(ERP)
전사적 메타데이터 관리
Big Data
비즈니스요구사항
비즈니스 용어 사전 제작
비즈니스 용어사전– 조직내에서 정보에 관한 의사소통을 원활하게 하기 위해 사용하는 용어들
– 이 사전을 전사적으로 관련된 사람(데이터 관리자와 임원들)에게 배포함으로써 정확하고 신속한 의사소통과 정보 시스템 개발이 가능해짐
빅데이터와 관련된 핵심 비즈니스 용어의 예
– 보험에서 리스크 가격 책정의 정확도 (Risk pricing accuracy) 보험료와 청부비용의 비율로 정의함
– 스마트 미터기에서 SAIDI (system average interruption duration index)와 SAIFI (system average interruption frequency index) 고객당 평균 정전시간/한 고객이 경험하는 평균적인 전기중단 회수
– 웹 클릭스트림 분석에서 unique visitor 한달에 한번 방문한 사람 / 1주일에 한번 방문한 사람
– 보험의 청구 트랜잭션 빅데이터에서 policy term
– 건강보험 청구 트랜잭션 빅데이터에서 Per Member Per Month
2014-06충북대학교 조완섭
Hadoop 메타 데이터
메타 데이터는 Hadoop의 핵심 조력자임
– HDFS는 하나의 name node와 다수의 data nodes로 구성되는
master/slave 구조를 가짐
– 메타 데이터는 name node에 존재하여 분산 저장/처리되는
데이터들을 merge 하는데 중요한 정보로 사용됨
– HDFS에서 데이터가 여러 data node에 중복 저장되므로 고장
감내형이지만 name node가 고장나면 메타 데이터가 없어지게 되어
고장복구가 어렵게 됨; name node 복제 및 다른 드라이브에 저장할
필요성이 있음 (cloudera의 경우)
– 메타 데이터는 메모리에 유지해야 하므로 데이터 저장공간이
확장됨에 따라 메모리 공간부족으로 확장성에 제한이 있을 수 있음
Hcatalog
– Hadoop의 메타 데이터 측면의 부족함을 보충하는 부분
2014-06충북대학교 조완섭
7.2 Hadoop 메타 데이터의 이해
HDFS 구조
2014-06충북대학교 조완섭
Hadoop분산파일 시스템의 기술적인 아키텍처
Block A
Block B
Block C
Block A’
Block B’
Block C’
Block A’’
Block B’’
Block C’’
Block A’’’
Block B’’’
Block C’’’
①(메타데이터를 가짐)
② Block은 여러 서버에 복제되어 하나의 DataNode가 죽어도 내고장성(fault tolerance)를 보장한다.
x
③ Name Node는 고장에 취약 Name Note에 대한 복제본을 만들어
원격지 하드 드라이버에 보관을 권장④ 확장성: Name Note공간이 커짐에 따라 확장성 고려..
미국내 가구별 구매행태(1억개 레코드)의 예
메타 데이터와 프라이버시
빅데이터에는 개인 식별 정보를 포함하는 경우가 빈번함– 통신사는 고객의 GPS 데이터를 지리공간 정보와 결합하여 매우 상세한 개인
활동과 라이프 스타일을 생성할 수 있음
민감한 데이터 관련 빅데이터 거버넌스 활동– 민감함 빅데이터의 분류
비즈니스 사전에서 모든 저장소에 포함된 민감한 데이터를 분류하고, 유형별로 민감도를 결정해야 함
– 민감한 빅데이터를 발견
• 민감한 빅데이터는 비구조화된 텍스트에 숨겨져 있을 수가 있으며(콜센터에서
주민번호를 비구조화된 필드에 입력하는 경우), 데이터 프로파일링 도구를
사용하여 비구조화된 필드에서 민감한 데이터를 자동 발견하는 것을 고려함
– 비즈니스 사전에 민감한 데이터를 표시함 민감한 데이터의 위치를 사전에 명시했을 때만 조직 (시스템)은 적절한 정책을 집
행할 수 있음
– 빅데이터 프라이버시 정책 시행 콜센터에 전화를 종료한 후에 비구조화 필드에 있는 민감한 모든 정보를 삭제하게
하는 정책을 시행할 수 있음; 정책의 준수 여부를 모니터링 할 수도 있음
2014-06충북대학교 조완섭
빅데이터 저장소와 기술적 메타 데이터
비즈니스 사전 구축 후 빅데이터 소스로부터 메타 데이터를추출해야 함
– 이 때 데이터 소스는 관계 데이터베이스, 파일, 비즈니스 인텔리전스 리포트, 응용, 데이터 모델, Hadoop 등에 포함된 구조적, 반구조적, 비구조적 데이터를 모두 포함함
– 주요 정보 관리 벤더들은 이러한 메타 데이터를 중앙 집중화된리파지토리로 모으는 커넥트 혹은 브리지 도구를 제공함
– 향후, 주요 메타 데이터 벤더들은 Hadoop 소스에 대한 지원을선언할 것으로 예상됨
2014-06충북대학교 조완섭
([email protected]) 10
빅데이터소스들
메타 데이터 추출
비즈니스용어사전
비즈니스용어사전
빅데이터 이동과 운영 메타 데이터
운영 메타 데이터
– 운영 메타 데이터(operational metadata)는 운영시 데이터의이동 메커니즘(예를들어 ETL 도구)에 의해 생성되는 정보로써실제 데이터의 이동에 관한 정보를 기술하고 있으며, 이동 과정에서 발생하는 데이터의 변환에 관련된 정보도 포함함
– 운영 메타 데이터는 발생하도록 규정되어 있는 것과 실제로 발생한 것 사이의 갭에 대한 가교 역할을 담당함
– 빅데이터 프로젝트에서 거대한 양의 데이터를 Hadoop 환경에서 데이터 웨어하우스 (혹은 데이터베이스)로 이동시키는 경우운영 메타 데이터를 갖고서 전체 과정에서 어떤 일이 실패하였다거나 혹은 다수의 행(레코드)들이 누락되었다는 사실을 적시에 인식할 수 있음; 빅데이터 거버넌스 관점에서 매우 중요함
2014-06충북대학교 조완섭
([email protected]) 11
빅데이터 이동과 운영 메타 데이터
운영 메타 데이터의 예
– 특정 작업이 실패했거나 혹은 경고가 발생했는지에 관한 정보
– 어떤 데이터베이스 혹은 파일들로부터 read/write/reference 했는지에 관한 정보
– 어떤 작업이 언제 시작되어 언제 종료되었는지에 관한 정보
– 사용된 단계 혹은 연결에 관한 정보
– 어떤 작업이 포함된 프로젝트에 관한 정보
– 어떤 작업이 실행된 컴퓨터에 관한 정보
– 어떤 작업에서 사용된 런타임 파라미터들
– 작업의 실행 동안에 발생한 이벤트 (읽거나 쓰여진 레코드 수)
– 작업의 호출 ID
2014-06충북대학교 조완섭
([email protected]) 12
기술적 메타데이터와 데이터 흐름 및 영향성 분석
데이터 계통
– 데이터의 이동에 관한 감사추적이 가능하도록 함
– 데이터의 소스, 변환, 목적지에 관한 정보로 구성됨
데이터 영향분석 (impact analysis)
– 어떤 데이터에 대한 변경이 다른 데이터에 어떤 영향을 미치는가?에 관한 분석
사기적발이나 리스크 관리 등의 업무
– 데이터 계통과 영향 분석이 중요한 비중을 차지함
2014-06충북대학교 조완섭
([email protected]) 13
기술적 메타데이터와 데이터 흐름 및 영향성 분석
Case Study
– 거대 수송 서비스 제공 사업자는 대규모 클릭 스트림 데이터를생성하며, 이들 데이터는 다음과 같은 특성을 가짐
2014-06충북대학교 조완섭
([email protected]) 14
거대 수송 서비스 업자의 데이터 웨어하우징 환경과 Hadoop 의 통합에 대한 기술적인 아키텍쳐
실제구매자의clickstream만가져옴
Sales information과 통합함
Clickstream data
기술적 메타데이터와 데이터 흐름 및 영향성 분석
Clickstream data와 sales information의 통합 효과
– 마케팅팀 $500 이상 구매자의 주요 랜딩 페이지를 확인할 수 있는가 ?
– 재무팀 수익성이 높은 고객들이 어느 사이트로부터 유입되는가 ?
– IT팀 HDFS에서 이 파일들을 삭제하면 후속 보고서들에 어떤 영향을 미치는
가 ?
2014-06충북대학교 조완섭
([email protected]) 15
비구조화된 문서와 메타 데이터를 수집
비구조화된 문서에 대한 검색 인덱스 생성도 메타 데이터의한 형태임
기업 검색 벤더들이 다음과 같은 활용 사례를 지원하는 도구를 개발해 왔음
– 보험 : 고객의 응대, 경보, 정책, 고객정보 등에 관한 문서 리파지토리를 검색하는 도구를 콜센터에 제공함으로써 평균 처리시간의 3초 단축과 년간 수백만 달러 절감효과를 가져온다.
– 제약 : 고객, 환자, EMC Documentum의 리서치 데이터, 파일시스템, Microsoft의 SharePoint, intranet pages, 외부 데이터베이스 등에 대한 빠른 접근을 제공함으로써 연구를 신속하게 지원한다.
– 건강 : 임상 의사에게 메디컬 저널과 다른 문서 저장소에 있는최신의 연구결과에 대한 접근을 제공한다.
2014-06충북대학교 조완섭
([email protected]) 16
빅데이터를 위한 메타데이터 확장
빅데이터 시대에 정보 거버넌스 팀은 메타 데이터 관련 다수역할을 추가로 수행해야 함
– 비즈니스 사전 관리자
– 메타 데이터 관리자
– 데이터 계통(lineage) 관리자 Hadoop과 다른 빅데이터 소스들 사이에 데이터 흐름을 관리함
– 데이터 관리권자
– 데이터 아키텍트
2014-06충북대학교 조완섭
([email protected]) 17
요약
메타 데이터 베스트 프랙티스들은 기존의 데이터 프로젝트에서 잘 정립되었음
그러나 빅데이터는 실시간성과 다양성 등의 특징으로 인하여 특별한 메타 데이터 문제를 던지고 있음
조직들이 빅데이터에 관해 더 많은 경험을 할수록, 벤더들이Hadoop을 그들의 제품에 연계시킬수록 빅데이터에 대한 메타 데이터가 주류로 부상할 것임
2014-06충북대학교 조완섭
([email protected]) 18