18
11 장 메타 데이터 2015.6 충북대학교 경영정보학과 조 완섭 [email protected] * 본 장은 “빅데이터거버넌스(홍릉과학출판사, 조완섭 역)”의 일부를 요약함

제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

제 11 장 메타 데이터

2015.6

충북대학교 경영정보학과

조 완섭

[email protected]

* 본 장은 “빅데이터거버넌스(홍릉과학출판사, 조완섭 역)”의 일부를 요약함

Page 2: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

목 차

2014-06 2충북대학교 조완섭

([email protected])

• 메타 데이터• 비즈니스 용어 사전 제작• Hadoop 메타 데이터• 메타 데이터와 프라이버시• 빅데이터 저장소와 기술적 메타 데이터• 빅데이터 이동과 운영 메타 데이터• 기술적 메타데이터와 데이터 흐름 및 영향성 분석• 비구조화된 문서와 메타 데이터를 수집• 빅데이터를 위한 메타데이터 확장• 요약

Page 3: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

메타 데이터

메타 데이터의 정의– 조직에서 관심을 갖는 데이터의 특성을 요약한 데이터

– 데이터 항목들의 이름, 생성 및 저장의 위치, 추출 및 통합 과정과 방법, 품질, 조직에서의 가치, 다른 데이터와의 연관성, 프라이버시 등의정보를 포함

2014-06충북대학교 조완섭

([email protected]) 3

Meta data for Big Data ?Knowing what we have ?

False discoveries 방지

Page 4: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

메타 데이터

2014-06충북대학교 조완섭

([email protected]) 4

메타 데이터(metadata)의 불일치 =>정보 통합, 분석, 유통의 걸림돌

통합시데이터가 유용한가 ?

항목의 명칭이 다르다

값의 단위가 다르다

동일한 차의분류가 다르다

동일한 의미를다르게 표현함

System-1 System-2

메타데이터1 메타데이터2

Page 5: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

메타 데이터

빅데이터와 메타 데이터 관리

– 빅데이터는 기존 데이터에서 데이터의 양과 다양성, 실시간성 측면에서 확대된 것임; 기존 메타 데이터 인프라의구축과 유지관리에 추가적인 과제가 요구됨

2014-06충북대학교 조완섭

([email protected]) 5

DB/DW

정보시스템(ERP)

전사적 메타데이터 관리

Big Data

비즈니스요구사항

Page 6: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

비즈니스 용어 사전 제작

비즈니스 용어사전– 조직내에서 정보에 관한 의사소통을 원활하게 하기 위해 사용하는 용어들

– 이 사전을 전사적으로 관련된 사람(데이터 관리자와 임원들)에게 배포함으로써 정확하고 신속한 의사소통과 정보 시스템 개발이 가능해짐

빅데이터와 관련된 핵심 비즈니스 용어의 예

– 보험에서 리스크 가격 책정의 정확도 (Risk pricing accuracy) 보험료와 청부비용의 비율로 정의함

– 스마트 미터기에서 SAIDI (system average interruption duration index)와 SAIFI (system average interruption frequency index) 고객당 평균 정전시간/한 고객이 경험하는 평균적인 전기중단 회수

– 웹 클릭스트림 분석에서 unique visitor 한달에 한번 방문한 사람 / 1주일에 한번 방문한 사람

– 보험의 청구 트랜잭션 빅데이터에서 policy term

– 건강보험 청구 트랜잭션 빅데이터에서 Per Member Per Month

2014-06충북대학교 조완섭

([email protected]) 6

Page 7: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

Hadoop 메타 데이터

메타 데이터는 Hadoop의 핵심 조력자임

– HDFS는 하나의 name node와 다수의 data nodes로 구성되는

master/slave 구조를 가짐

– 메타 데이터는 name node에 존재하여 분산 저장/처리되는

데이터들을 merge 하는데 중요한 정보로 사용됨

– HDFS에서 데이터가 여러 data node에 중복 저장되므로 고장

감내형이지만 name node가 고장나면 메타 데이터가 없어지게 되어

고장복구가 어렵게 됨; name node 복제 및 다른 드라이브에 저장할

필요성이 있음 (cloudera의 경우)

– 메타 데이터는 메모리에 유지해야 하므로 데이터 저장공간이

확장됨에 따라 메모리 공간부족으로 확장성에 제한이 있을 수 있음

Hcatalog

– Hadoop의 메타 데이터 측면의 부족함을 보충하는 부분

2014-06충북대학교 조완섭

([email protected]) 7

Page 8: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

7.2 Hadoop 메타 데이터의 이해

HDFS 구조

2014-06충북대학교 조완섭

([email protected]) 8

Hadoop분산파일 시스템의 기술적인 아키텍처

Block A

Block B

Block C

Block A’

Block B’

Block C’

Block A’’

Block B’’

Block C’’

Block A’’’

Block B’’’

Block C’’’

①(메타데이터를 가짐)

② Block은 여러 서버에 복제되어 하나의 DataNode가 죽어도 내고장성(fault tolerance)를 보장한다.

x

③ Name Node는 고장에 취약 Name Note에 대한 복제본을 만들어

원격지 하드 드라이버에 보관을 권장④ 확장성: Name Note공간이 커짐에 따라 확장성 고려..

미국내 가구별 구매행태(1억개 레코드)의 예

Page 9: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

메타 데이터와 프라이버시

빅데이터에는 개인 식별 정보를 포함하는 경우가 빈번함– 통신사는 고객의 GPS 데이터를 지리공간 정보와 결합하여 매우 상세한 개인

활동과 라이프 스타일을 생성할 수 있음

민감한 데이터 관련 빅데이터 거버넌스 활동– 민감함 빅데이터의 분류

비즈니스 사전에서 모든 저장소에 포함된 민감한 데이터를 분류하고, 유형별로 민감도를 결정해야 함

– 민감한 빅데이터를 발견

• 민감한 빅데이터는 비구조화된 텍스트에 숨겨져 있을 수가 있으며(콜센터에서

주민번호를 비구조화된 필드에 입력하는 경우), 데이터 프로파일링 도구를

사용하여 비구조화된 필드에서 민감한 데이터를 자동 발견하는 것을 고려함

– 비즈니스 사전에 민감한 데이터를 표시함 민감한 데이터의 위치를 사전에 명시했을 때만 조직 (시스템)은 적절한 정책을 집

행할 수 있음

– 빅데이터 프라이버시 정책 시행 콜센터에 전화를 종료한 후에 비구조화 필드에 있는 민감한 모든 정보를 삭제하게

하는 정책을 시행할 수 있음; 정책의 준수 여부를 모니터링 할 수도 있음

2014-06충북대학교 조완섭

([email protected]) 9

Page 10: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

빅데이터 저장소와 기술적 메타 데이터

비즈니스 사전 구축 후 빅데이터 소스로부터 메타 데이터를추출해야 함

– 이 때 데이터 소스는 관계 데이터베이스, 파일, 비즈니스 인텔리전스 리포트, 응용, 데이터 모델, Hadoop 등에 포함된 구조적, 반구조적, 비구조적 데이터를 모두 포함함

– 주요 정보 관리 벤더들은 이러한 메타 데이터를 중앙 집중화된리파지토리로 모으는 커넥트 혹은 브리지 도구를 제공함

– 향후, 주요 메타 데이터 벤더들은 Hadoop 소스에 대한 지원을선언할 것으로 예상됨

2014-06충북대학교 조완섭

([email protected]) 10

빅데이터소스들

메타 데이터 추출

비즈니스용어사전

비즈니스용어사전

Page 11: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

빅데이터 이동과 운영 메타 데이터

운영 메타 데이터

– 운영 메타 데이터(operational metadata)는 운영시 데이터의이동 메커니즘(예를들어 ETL 도구)에 의해 생성되는 정보로써실제 데이터의 이동에 관한 정보를 기술하고 있으며, 이동 과정에서 발생하는 데이터의 변환에 관련된 정보도 포함함

– 운영 메타 데이터는 발생하도록 규정되어 있는 것과 실제로 발생한 것 사이의 갭에 대한 가교 역할을 담당함

– 빅데이터 프로젝트에서 거대한 양의 데이터를 Hadoop 환경에서 데이터 웨어하우스 (혹은 데이터베이스)로 이동시키는 경우운영 메타 데이터를 갖고서 전체 과정에서 어떤 일이 실패하였다거나 혹은 다수의 행(레코드)들이 누락되었다는 사실을 적시에 인식할 수 있음; 빅데이터 거버넌스 관점에서 매우 중요함

2014-06충북대학교 조완섭

([email protected]) 11

Page 12: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

빅데이터 이동과 운영 메타 데이터

운영 메타 데이터의 예

– 특정 작업이 실패했거나 혹은 경고가 발생했는지에 관한 정보

– 어떤 데이터베이스 혹은 파일들로부터 read/write/reference 했는지에 관한 정보

– 어떤 작업이 언제 시작되어 언제 종료되었는지에 관한 정보

– 사용된 단계 혹은 연결에 관한 정보

– 어떤 작업이 포함된 프로젝트에 관한 정보

– 어떤 작업이 실행된 컴퓨터에 관한 정보

– 어떤 작업에서 사용된 런타임 파라미터들

– 작업의 실행 동안에 발생한 이벤트 (읽거나 쓰여진 레코드 수)

– 작업의 호출 ID

2014-06충북대학교 조완섭

([email protected]) 12

Page 13: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

기술적 메타데이터와 데이터 흐름 및 영향성 분석

데이터 계통

– 데이터의 이동에 관한 감사추적이 가능하도록 함

– 데이터의 소스, 변환, 목적지에 관한 정보로 구성됨

데이터 영향분석 (impact analysis)

– 어떤 데이터에 대한 변경이 다른 데이터에 어떤 영향을 미치는가?에 관한 분석

사기적발이나 리스크 관리 등의 업무

– 데이터 계통과 영향 분석이 중요한 비중을 차지함

2014-06충북대학교 조완섭

([email protected]) 13

Page 14: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

기술적 메타데이터와 데이터 흐름 및 영향성 분석

Case Study

– 거대 수송 서비스 제공 사업자는 대규모 클릭 스트림 데이터를생성하며, 이들 데이터는 다음과 같은 특성을 가짐

2014-06충북대학교 조완섭

([email protected]) 14

거대 수송 서비스 업자의 데이터 웨어하우징 환경과 Hadoop 의 통합에 대한 기술적인 아키텍쳐

실제구매자의clickstream만가져옴

Sales information과 통합함

Clickstream data

Page 15: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

기술적 메타데이터와 데이터 흐름 및 영향성 분석

Clickstream data와 sales information의 통합 효과

– 마케팅팀 $500 이상 구매자의 주요 랜딩 페이지를 확인할 수 있는가 ?

– 재무팀 수익성이 높은 고객들이 어느 사이트로부터 유입되는가 ?

– IT팀 HDFS에서 이 파일들을 삭제하면 후속 보고서들에 어떤 영향을 미치는

가 ?

2014-06충북대학교 조완섭

([email protected]) 15

Page 16: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

비구조화된 문서와 메타 데이터를 수집

비구조화된 문서에 대한 검색 인덱스 생성도 메타 데이터의한 형태임

기업 검색 벤더들이 다음과 같은 활용 사례를 지원하는 도구를 개발해 왔음

– 보험 : 고객의 응대, 경보, 정책, 고객정보 등에 관한 문서 리파지토리를 검색하는 도구를 콜센터에 제공함으로써 평균 처리시간의 3초 단축과 년간 수백만 달러 절감효과를 가져온다.

– 제약 : 고객, 환자, EMC Documentum의 리서치 데이터, 파일시스템, Microsoft의 SharePoint, intranet pages, 외부 데이터베이스 등에 대한 빠른 접근을 제공함으로써 연구를 신속하게 지원한다.

– 건강 : 임상 의사에게 메디컬 저널과 다른 문서 저장소에 있는최신의 연구결과에 대한 접근을 제공한다.

2014-06충북대학교 조완섭

([email protected]) 16

Page 17: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

빅데이터를 위한 메타데이터 확장

빅데이터 시대에 정보 거버넌스 팀은 메타 데이터 관련 다수역할을 추가로 수행해야 함

– 비즈니스 사전 관리자

– 메타 데이터 관리자

– 데이터 계통(lineage) 관리자 Hadoop과 다른 빅데이터 소스들 사이에 데이터 흐름을 관리함

– 데이터 관리권자

– 데이터 아키텍트

2014-06충북대학교 조완섭

([email protected]) 17

Page 18: 제 11 장메타데이터 - contents.kocw.netcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/12.pdf · – 웹클릭스트림분석에서unique visitor 한달에한번방문한사람

요약

메타 데이터 베스트 프랙티스들은 기존의 데이터 프로젝트에서 잘 정립되었음

그러나 빅데이터는 실시간성과 다양성 등의 특징으로 인하여 특별한 메타 데이터 문제를 던지고 있음

조직들이 빅데이터에 관해 더 많은 경험을 할수록, 벤더들이Hadoop을 그들의 제품에 연계시킬수록 빅데이터에 대한 메타 데이터가 주류로 부상할 것임

2014-06충북대학교 조완섭

([email protected]) 18