빅데이터 기반의 산업시장 정보분석gift.kisti.re.kr/announce/analysis-report/2014/miriran_14037.pdf · 산업시장 정보분석 ... 고객 접점, 모바일 미디어와

빅데이터 기반의산업시장 정보분석

유선희 한국과학기술정보연구원

정보분석보고-내지(유선희).indd��1 2013-09-27��오후�3:44:45

빅데이터 시대의 도래 ● 5

빅데이터 기반의 정보분석 ● 29

빅데이터 분석 관련 시장 ● 45

빅데이터 분석의 활용 ● 65

향후 전망 ● 83

차 례


빅데이터 시대의 도래


6빅데이터 기반의 산업시장 정보분석

1. 급속히 증가하는 디지털 데이터

데이터의 폭발적인 증가1)

기존 소셜 네트워크 서비스로 대표되는 소셜 미디어의 성장과 스마트폰으

로 대변되는 모바일 장치의 확산이 결합되어 일상 속에서 다양한 종류의 대규

모 데이터가 급속히 생성, 유통, 저장되고 있다. 또한 RFID(Radio Frequency

Identification)와 같이 정보를 감지하는 센서 장비의 이용 확대와 이러한 정

보를 수집하는 클라우드 컴퓨팅 기술의 확산은 물류의 이동 및 재고의 변화뿐

만이 아니라 개별 소비자들의 개인정보 및 소비행태와 같은 모든 일상에 대한

디지털 기록을 가능케 하고 있다.

지난 수년간 스마트폰과 같은 스마트기기의 빠른 확산과 함께 SNS 등 소셜

미디어가 급성장함에 따라 개인 정보와 소비 패턴, 위치 정보 등이 포함된 가

치 있는 데이터가 매순간 엄청난 양으로 생성되고 있으며, M2M(Machine to

Machine)과 IoT(Internet of Things) 등이 활성화되면서 인프라 시스템 자체

도 다량의 데이터를 직접 생성하기 시작했다.2)

글로벌 데이터 측면에서 보면, 인류탄생에서 2003년까지 발생한 데이터가

1) 위키백과, 2013. 7. 15.

2) 데이터베이스진흥협회, 2013 데이터베이스백서

빅데이터 시대의 도래


I 76

5 엑사바이트(1018 byte)정도 되는데, 이는 최근 2일 동안 발생하는 데이터양

에 해당될 정도로 최근의 데이터 양은 폭발적으로 증가하고 있다.

그림 1-1 디지털 데이터의 10년간 성장 (단위: 엑사바이트(1018byte)

출처: IDC (2011)3),4)

그림 1-2 디지털 데이터 처리비용 감소 및 전체 투자 증가

20

15

10

5

02005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

Total Investment( T)Cost per GB

출처: IDC (2011)5)

다시 말해, 하루에도 수많은 데이터가 만들어지고 있는데, 1분내에 1억6천

8백만개의 이메일(e-mail)이 발송되고, 51만개의 페이스북 댓글(facebook

3) IDC’s Digital Universe Study, sponsored by EMC, June 2011

4) John Gantz & David Reinsel, “Extracting Value from Chaos”, IDC IVIEW June 2011

5) IDC’s Digital Universe Study, sponsored by EMC, June 2011



comment)이 달리며, 1만 3천개의 아이폰(iPhone) 어플이 다운로드 되는 등

소셜네트워크를 통한 데이터가 기하급수적으로 생성되고 있다.6) 정보시스템

의 고도화, 모바일, 클라우드(cloud), 소셜네트워크의 일상화로 인해 생성되

는 데이터의 양이 제타바이트(1021 byte) 시대에 돌입하고 있다.

그림 1-3 1분 동안 인터넷에서 발생되는 데이터

출처: Intel, What Happens In An Internet Minute?7)

월마트(Wal-Mart)의 경우 매 시간 백만 건 이상의 고객 거래 업무를 처리

해서 데이터베이스(약 2.5 페타바이트 이상의 데이터를 저장하는 것으로 추정

됨)에 저장한다. 일반적으로 소매업계에서 사용하는 RFID 시스템의 경우, 종

래의 바코드 시스템보다 100~1,000배나 더 많은 데이터를 생성해낸다.8)

페이스북(facebook)은 매일 2억 5천만 건 이상의 사진 업로드와 9억 건 이

상의 개체(페이지, 그룹 등)를 포함하여, 약 8억 건의 사용자 이용을 처리한

6) 이성희, “Big Data의 이해 - 가치와 도입전략”, 한국컴퓨터정보학회지, 20권2호, 2012.12, p15-18.

7) http://www.intel.com/content/www/us/en/communications/internet-minute-infographic.html

8) Mark Troester, "Big Data Meets Big Data Analytics", SAS white paper, 2012


I 98

다. 또한, 전 세계 50억 명의 사용자들이 모바일 폰을 사용해서 전화를 걸고,

문자 메시지를 주고 받고, 트윗을 올리고, 웹 검색을 한다.

이렇듯, 지금 조직들은 그야말로 엄청난 규모, 즉, 테라바이트, 페타바이트

의 데이터에 직면하고 있는 실정이다. 그렇다면 1 테라바이트의 크기는 어느

정도일까? 1 테라바이트는 2,000 시간 분량의 CD 음질 음악을, 10 테라바이

트는 미 국회 도서관의 인쇄물 전체를 저장할 수 있는 규모다.9) 1 페타바이트

에 대해서는 에서 알 수 있듯이, 문서로 채워진 서랍 4개 짜리 캐

비넷 2천만개 또는 HD급 TV 비디오 13.3년 분량의 엄청난 크기이다. 문제는,

이제 엑사바이트, 제타바이트, 요타바이트의 시대도 머지않아 도래할 것이라

는 사실이다.10)

운영 및 거래 시스템, 스캐닝 및 시설 관리 시스템, 인바운드 및 아웃바운드

고객 접점, 모바일 미디어와 웹 등, 다방면에서 데이터가 쏟아져 나오고 있다.

IDC 측은 “2011년에 생성되고 복제된 정보의 양이 1.9 제타바이트(1.8조 기

가바이트)를 초과할 것으로 예상하였는데, 이는 불과 5년 만에 9배 증가한 수

치다. 다시 말해, 디지털 우주에 존재하는 정보 비트의 수가 물리적 우주에서

의 별의 수에 근접하는 수준이다”라고 보고하고 있다(2011년 6월 EMC가 후원

한 IDC Digital Universe Study)11).

이 같은 데이터의 폭발적 증가는 새로운 현상이라기보다는 1970년대부터

시작되어 지금까지 이어져 오고 있는 트렌드의 연장선이라고 할 수 있다. 바

뀐 것이 있다면, 데이터 증가 속도와 유형의 다양성, 그리고 비즈니스 혁신을

위해 정보를 더욱 효과적으로 활용해야 할 필요성이 대두되기 시작했다는 점

이다.12)

그림 1-4 페타바이트(1015 byte)는 어느정도의 크기일까?

9) 1테라바이트=> 1,000기가바이트, 2,000시간 분량의 CD음질 음악, 250~500편의 영화, 10테라바이트의 경우

미국회 도서관의 인쇄물(3200만권 책, 6100만개 원고 1백만권 정부간행물, 1백만 300년간 세계이슈 신문, 33000

묶음 신문 등등) 전체 저장

10) 1테라바이트=1012byte, 1페타바이트=1015byte, 1엑사바이트=1018byte, 1제타바이트=1021byte, 1요타바이트=1024byte

11) Mark Troester, “Big Data Meets Big Data Analytics”, SAS white paper, 2012

12) Philip Carter, “Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO”, IDC, 2011.



출처: www.mozy.com

비정형 데이터의 증가13)

더불어 정형 데이터보다는 비정형 데이터의 증가로 전세계 데이터량은 매

년 약 60%씩 증가할 것으로 예상된다. 소셜데이터를 포함한 비정형 데이터는

향후 생성되는 전체 데이터의 90%에 달할 것으로 전망된다. 에서

보듯이 정형화된 데이터베이스의 비중은 약 10%로 점점 감소하는 추세를 보

이고, 비정형 데이터는 약 90% 정도이고 점점 증가하는 추세를 보이고 있다.

이렇게 생성되는 전체중 90%에 달하는 비정형 데이터는 기존 방식으로는

분석에 상당한 비용과 시간이 소요되고 분석이 제한됨에 따라 새로운 분석 방

식과 기술이 등장하게 되었다.14) 2020년까지 35 제타바이트까지 폭증할 것으

로 예상되고 있으나(IDC, 2011), 그 가운데 3분의 1 정도만을 분석할 수 있을

것으로 보여진다.15)

13) Terri McClure, Quantum StorNext-Meeting Unstructured Data Storage Requirements Across the Data Lifecycle

with Scale-Out Storage(White Paper), Enterprise Strategy Group(ESG), Dec 2010.




I 1110

기업 및 사회는 이러한 수집된 데이터를 기반으로 예측 분석을 하기 위하여

다양한 종류의 대규모 데이터 처리, 분석 및 활용 기술을 필요로 하고 있다.

대량의 다양한 데이터 생산 기술의 진보와 이에 필요한 데이터 저장, 관리, 분

석 기술의 발전 속에서 빅데이터가 출현하게 되었다.16)

그림 1-5 세계 디지털 데이터 유형별 생성 추이(2010-2015, 단위: 페타바이트(1015 byte))

20100

50,000

100,000

150,000

200,000

250,000

300,000

350,000

FileDatabaseE-mail

25,1274,0654,025

39,2376,1796,575

59,6009,140

10,411

92,53613,82416,796

147,88521,53227,817

226,71632,18844,091

2011 2012 2013 2014 2015

출처: Enterprise Strategy Group, 201017)

2. 빅데이터의 개념 및 특징

빅데이터의 개념18)

빅데이터(big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장,

관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합19)

및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술20)을 의미한다.

다시말해, 빅데이터는 너무 크고 복잡하여 기존의 데이터베이스 관리 툴

또는 전통의 데이터 처리 제품을 사용하여 처리하기 어려운 데이터셋(data


17) Enterprise Strategy Group(ESG) Report, Digital Archive Market Forecast 2010-2015, July 2010.

18) 위키백과, 2013. 7. 15.

19) James Manyika & Michael Chui, “Big data: The next frontier for innovation, competition, and productivity”,

McKinsey Global Institute, (2011년 05월), Pg.1

20) John Gantz & David Reinsel, “Extracting Value from Chaos”, IDC IVIEW June, (2011년), p.6.



sets)이 수집된 것이다.21)22) 여기에는 캡쳐(capture), 큐레이션(curation), 저장

(storage), 검색(search), 공유(sharing), 전송(transfer), 분석(analysis) 및

가시화(visualization) 영역이 포함된다.

다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로

하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여

효율적으로 작동케 하고 개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공,

관리, 분석 가능케 하며 과거에는 불가능했던 기술을 실현시키기도 한다.

이같이 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서

사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요

성이 부각되고 있다.

빅데이터의 정의23)

빅 데이터의 정의에 합의된 바는 없지만 맥킨지와 IDC는 데이터베이스의

규모와 업무수행에 초점을 맞춰 빅 데이터를 다음과 같이 정의하였다.

- 데이터베이스의 규모에 초점을 맞춘 정의 (McKinsey, 2011)24)

: 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과

하는 규모의 데이터

- 데이터베이스가 아닌 업무수행에 초점을 맞춘 정의 (IDC, 2011)25)

: 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고

(데이터의) 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술

및 아키텍처

IDC Asia Pacific 부사장 Philip Carter에 따르면, “빅 데이터 기술은 고속

캡처/발견/분석을 가능하게 함으로써 방대하고 다양한 데이터에서 경제적 가

치를 도출하도록 설계된 신 개념의 기술과 아키텍처를 말한다.” 단, 이 분석

기술은 실시간 또는 준 실시간으로 가동되어야 하며, 경제성과 안전성 그리고

21) White, Tom (10 May 2012). Hadoop: The Definitive Guide. O’Reilly Media. p. 3. ISBN 978-1-4493-3877-0.

22) “MIKE2.0, Big Data Definition”. //MIKE(Method for an Integrated Knowledge Environment)

23) 위키백과, 2013. 7. 15.

24) James Manyika & Michael Chui, “Big data: The next frontier for innovation, competition, and productivity”,

McKinsey Global Institute, (2011년 05월), Pg.1

25) John Gantz & David Reinsel, “Extracting Value from Chaos”, IDC IVIEW June, (2011년), p.6.


I 1312

현실성을 충족시킬 수 있는 것이라야 한다고 정의하였다.26)

표 1-1 기존의 빅데이터 정의

구분 주요 내용

맥킨지 보고서, 2011(규모적 정의)

•��기존 방식(일반적인 데이터베이스 SW)으로 저장 관리 분석할 수 있는 범위를 초과하는 규모의 데이터

IDC 보고서, 2011(기술적 정의)

•��다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 초고속으로 수집 발굴 분석하도록 고안된 차세대 기술 및 아키텍처

삼성경제연구소, 2011(방법적 정의)1

•��당초 다양한 수십-수천 테라바이트에 달하는 거대한 데이터 집합자체만을 지칭하였으나, 점차 대규모 데이터 관련 도구, 플랫폼, 분석기법까지 포괄하는 개념으로 변화

위키피디아•��기존 데이터베이스 관리 도구의 데이터 수집 저장 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술

정보통신정책연구원, 2012

•��데이터의 양, 생성 주기(실시간 생산), 형식(수치 데이터뿐 아니라 문자와 같은 비정형 데이터 포괄) 등에서 과거 데이터에 비해 규모가 크고, 형태가 다양하여 기존의 방법으로는 수집 저장 분석이 어려운 방대한 크기의 데이터

정보통신산업진흥원. 2012

•��수많은 정형 데이터 혹은 비정형 데이터를 수집하면 분명한 패턴이 나오게 되며, 이를 통해 수집된 데이터를 기반으로 한 예측 분석

(유용한 의미와 통찰을 끌어낼 수 있는 인재와 조직을 포함하는 포괄적인 개념으로 정의)

출처: NIPA (2013) 27) 재구성

2001년 연구보고서와 관련 강연에서, META 그룹(현재 Gartner) 분석가 더

그 래니(Doug Laney)가 데이터 성장의 도전과 기회를 3차원적으로, 즉, 데이

터의 양(volume)의 증가, 데이터 입출력 속도(velocity)의 증가 그리고 데이터

유형 및 소스 범위(variety)의 증가로 특징을 설명하였다. 그리고 현재는 가트

너(Gartner)와 다른 많은 산업의 관계자들이 이러한 “3V” 모델을 빅데이터 설

명에 계속해서 사용하고 있다28).

2012년 가트너는 다음과 같이 빅데이터의 정의를 업데이트하였다: “빅데이

터는 대용량(high volume), 고속(high velocity) 및 매우 다양한(high vari-

ety) 정보자산(information assets)으로 강화된 의사결정, 통찰력의 발견(in-

sight discovery) 및 공정 최적화를 위해서 새로운 형태의 처리가 필요한 것이

26) Philip Carter, Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO, IDC, 2011.09.

27) NIPA, “빅 데이터의 핵심 플랫폼, 기업용 하둡 동향“, 2013.2.

28) Beyer, Mark. “Gartner Says Solving ‘Big Data’ Challenge Involves More Than Just Managing Volumes of Data”.

Gartner. Archived from the original on 10 July 2011. Retrieved 13 July 2011.



다.”29) 더욱이, IBM을 비롯한 몇몇 기관에서는 새로운 V “Veracity(진실성)”를

빅데이터 특징을 설명하는데 추가시키기도 하였다.30)

가트너의 정의(3V)가 널리 사용되고, 개념이 더 성숙해질수록 데이터와 그

용도를 고려할 때, 빅데이터와 비즈니스 인텔리전스(Business Intelligence,

이하 BI)간의 차이는 더 벌어지게 된다. 즉, BI는 기술적 통계(descriptive

statistics)를 사용하는데, 사용되는 데이터는 고밀도의 정보(high informa-

tion density)로 사물을 측정하고, 경향을 감지하는 등의 정보이다. 반면에 빅

데이터는 귀납적 통계(inductive statistics)를 사용하며, 데이터는 저밀도 정

보(low information density)31), 즉, 엄청난 양(volume)의 데이터의 회귀분석

등에 의해 규칙을 발견하는 것으로, 추론을 합리화 하는데 한계가 있지만, 빅

데이터 자체가 어느 정도의 예측 능력을 갖게 된다.32)

일본 노무라연구소는 빅데이터를 광의적으로는 인재 조직, 데이터처리 축

적 분석기술, 데이터 등 3요소로 정의하였는데33), 빅데이터의 대표적 특성인

3V는 인재, 기술, 데이터 3요소 중에 데이터에 해당하는 특성으로써 협의의

정의로 구분하였다.

그림 1-6 노무라 연구소의 광의의 빅데이터 정의

출처: 노무라연구소(2012)34)

29) Douglas, Laney. "The Importance of 'Big Data': A Definition". Gartner. Retrieved 21 June 2012.

30) "What is Big Data?". Villanova University.

31) Delort P., Big data Paris 2013 http://www.andsi.fr/tag/dsi-big-data/

32) Delort P., Big Data car Low-Density Data ? La faible densiten information comme facteur discriminant http://

lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-

densite-information-com

33) 노무라연구소(2012), “빅데이터 시대 도래”, IT 프론티어 3월호

34) 노무라연구소(2012), “빅데이터 시대 도래”, IT 프론티어 3월호


I 1514

빅데이터의 특징35)

빅데이터는 데이터의 양, 속도, 다양성, 가변성이 조직의 저장 능력이나 처

리 용량을 초과하여 적시에 정확한 의사결정을 내릴 수 없게 만드는 상황을

기술하는 상대적 용어다.

경우에 따라서 빅데이터는 급증하는 온라인 활동의 부산물이라 할 수 있는

데이터 스토어에 보관되기도 한다. 계량, 콜센터의 세부 통화 기록, 환경 감

지, RFID 시스템 같은 M2M(Machine-to-Machine) 상호작용 역시 엄청난

양의 데이터를 만들어낸다. 이 같이 다양한 형태의 데이터가 끊임없이 늘어나

는 가운데, 가속화가 붙은 소셜 미디어(social media)의 비정형·반정형 데이

터 스트림의 증가가 부담을 더욱 가중시키고 있다.

기업이나 기관들은 이러한 엄청난 양과 속도로 생성되는 데이터 문제로 고

심하고 있다. 모든 부문의 조직들이 보통 100 테라바이트(1012 byte) 이상의 데

이터를 보유하고 있고, 이 중 페타바이트(1015 byte)를 초과하는 경우도 많다.

미래학자 손톤 메이(Thornton May)는 2011년에 이러한 수치가 앞으로 6개월

마다 2배씩 증가할 것이라고 하기도 하였다.

하지만, 빅데이터는 양으로 정의되기보다 지속적으로 증가하는 다양성, 속

도, 가변성, 복잡성으로 특징지어 진다.

○ 다양성(Variety): 조직이 보유하고 있는 데이터 중 최대 85% ~ 90%가 숫

자 형태가 아닌 비정형 데이터이며, 이는 당연히 정량 분석과 의사결정에

고려되어야 한다. 결국 이 같은 텍스트, 비디오, 오디오를 비롯한 비정형

데이터를 제대로 분석하기 위해서는 다양한 아키텍처와 첨단 기술이 요구

된다.

○ 속도(Velocity): RFID 태그나 스마트 미터링36) 등의 사용이 준 실시간으로

대규모 데이터를 처리해야 할 필요성을 끊임없이 높이고 있다. 여기에 신

속하게 양질의 통찰력을 도출해야 하는 필요성까지 더해져, 조직들은 상

황에 즉각 대처하기 위한 필수 인프라와 스킬 베이스를 구축해야 하는 엄


36) 수동이 아닌 진일보된 계량기의 자동 검침



청난 부담감을 안고 있다.(Thornton May, 2011).

○ 가변성(Variability): 데이터가 빠르게 유입되는 것도 문제지만, 데이터 흐

름이 매우 가변적인 특성을 띠는 것이 더 큰 문제이다. 매일, 계절 및 이벤

트에 따른 피크 로드(peak loads)는 관리하기가 매우 까다롭다.

○ 복잡성(Complexity): 데이터 소스 유형이 증가하면 데이터 처리에 어려

움을 겪게 되고, 여기에 기업과 시스템에 걸쳐 데이터를 링크, 매치, 변환

해야 하므로 부담은 더욱 가중된다. 따라서 조직들은 모든 데이터들의 복

잡한 계층구조나 데이터 링크 같은 관계를 먼저 이해할 필요가 있다.

상기 요인들 중 한 가지나 두 가지 이상의 조합 또는 동시에 모든 것이 작용

할 경우 데이터 환경은 지금보다 더 나빠질 수 있다. 이 때 중요한 것은 모든 데

이터가 연관성을 가지거나 유용하지는 않다는 점을 이해하는 것으로, 옥석을

철저히 가려내어 과잉 정보가 아닌 핵심 정보에 초점을 맞출 수 있어야 한다.

표 1-2 빅데이터 특징 및 범위 (3V + C or 3V +V)

구분 주요 내용

규모(Volume)

• 기술적인 발전과 IT의 일상화가 진행되면서 해마다 디지털 정보량이 기하급수적으로 폭증 → 제타바이트(ZB) 시대로 진입• 기존 DB보다는 규모가 훨씬 크고 일정 기준으로 구분하지 않음

다양성(Variety)

• 로그기록, 소셜, 위치, 소비, 현실데이터 등 데이터 종류의 증가• 텍스트 이외의 멀티미디어 등 비정형화된 데이터 유형의 다양화• 구조적 데이터와 비구조적 데이터를 포함하며, 다양한 구조의 데이터를 서로 연관해서 분석할 수 있어야함

생성속도(Velocity)

• 사물정보(센서, 모니터링), 스트리밍 정보 등 실시간성 정보 증가• 실시간성으로 인한 데이터 생성, 이동(유통)속도의 증가• 대규모 데이터 처리 및 가치있는 현재 정보(실시간)활용을 위해 데이터 처리 및 분석 속도가 중요• 배치, 리얼타임, 스트림형태, 실시간분석과 반응을 필요로 함

복잡성(Complexity)

• 구조화되지 않은 데이터, 데이터 저장방식의 차이, 중복성 문제 등• 데이터 종류의 확대, 외부 데이터의 활용으로 관리 대상의 증가• 데이터 관리 및 처리의 복잡성이 심화되고 새로운 기법 요구• 위의 3가지 특성에 따라 보관, 운영 활용하는 것이 매우 복잡함

가치(Value)

• 새로운 가치의 창출과 관련된 것으로, 기존의 구조적 데이터는 거래를 안전하게 처리하기 위한 목적이었다면, 빅데이터는 경쟁력 및 운영 효율성에 직접적으로 큰 영향을 줄 수 있음• 규모가 크고, 빠르며, 다양해서 복잡하지만 큰 가치를 지님

처: 가트너, SAS (재구성)


I 1716

다시 정리하면, 빅데이터의 특성은 일반적으로 3V를 기본으로 1V(Value)

나 1C(Complexity)의 특성이 추가되어 설명할 수 있다. IBM은 빅데이터

를 3V를 가진 새로운 타입의 데이터로서 과거에는 답할 수 없던 통찰력

(insight)를 얻을 수 있는 기회로 정의하였고, 비즈니스 분석 솔루션 기업

인 SAS는 3V에 새로운 가치(value)를 더한 4V를 빅데이터의 기본적인

모습으로 제시하였으며, 가트너는 상기에 언급한 바와 같이 3V에 복잡성

(complexity)을 추가하여 4개의 축으로 제시하였다.

빅데이터 구분

기존의 데이터와 빅데이터를 에 나타낸 바와 같이 구분되기도 한

다. 즉, 규모적 측면에서는 페타바이트 이상을, 중앙집중형이라기 보다는 분

산형인 데이터를 빅데이터라 할 수 있다.

또한 추가적으로 데이터가 분석을 대상으로 하는 군 전체인지 일부 샘플인

지가 중요한 구분 기준이라 할 수 있을 것이고, 특히 대상 데이터가 가공을 통

해 비용이 많이 드는 것이 아니라, 수집에 큰 비용이 소요되지 않는 것을 주요

기준이라 볼 수 있다. 따라서 빅데이터의 판단 기준을 와 같이 정리

해 볼 수도 있다.

표 1-3 기존의 데이터와 빅데이터의 구분

기존의 데이터 빅데이터

기가바이트~테라바이트 페타바이트 ~ 엑사바이트

집중형 분산형

정형 반정형, 비정형

안정한 데이터 모델 평면 스키마(flat schemas)

알려진 복잡 상호관계 거의 알려지지 않은 복잡 상호관계

출처: Wicibon 2011

표 1-4 빅데이터 판단 기준

기존의 데이터 빅데이터

샘플 전수(전체)

과거 준실시간, 실시간

고비용 저비용

특정 유형(Text 위주) 모든 유형(소리, 영상 등)



빅데이터의 예

- RFID 데이터: 기존의 바코드 시스템에서 생성되는 데이터의 1,000배 정

도의 양 생성

- 전세계적으로 매초 발생되는 카드 거래의 수 10,000건37)

- Walmart에서 매시간 다루고 있는 고객 거래 데이터 백만건 이상38)

- 매일 보내지는 트윗 건수 3억 4천만건, 매초 거의 4,000건39)

- 약 9억명의 활동적인 페이스북 이용자가 생성하는 사회적 관계 데이터40)

- 50억명 이상의 사람들이 이동전화에서 생성하는 통화, 문자, 트윗 및 웹사

이트 조회

빅데이터 관련 기술 및 시스템

빅데이터 관련 기술과 오프소스41)

빅데이터는 분석의 중심이 되고 있는 데이터가 기존의 것과 다른 특성을 가

지기 때문에 이에 관련된 기술 역시 새로운 것이다. 빅데이터라는 개념도 관

련 기술의 발전에 따라 가능하게 된 측면이 많은데, 그 중심에는 하둡 생태계

(Hadoop ecosystem)가 있다. 또한 데이터의 수집, 저장, 분석, 표현에 이르

기까지 일련의 과정에서 사용되어지는 오픈소스의 솔루션에 대한 이해와 적

용 기술이 매우 복잡하다.

첫째, 데이터 수집은 데이터 발생원으로부터 안정적인 저장소로 저장하는

기능을 수행하는 것으로 대표적인 오픈소스로는 플럼(Flume), 스크라이브

(Scribe), 척와(Chukwa) 등이 있다.

둘째, 데이터 저장 단계는 크게 원본 데이터 저장과 트랜잭션 데이터 저장

으로 나눌 수 있다. 원본 데이터 저장의 경우 수집된 데이터를 안정적으로 저

장하는 저장소, 즉 비구조적 데이터 저장소로 주로 대용량 파일 저장소가 이

37) American Bankers Association, March 2009

38) http://www.economist.com

39) http://blog.twitter.com

40) http://newsroom.fb.com/



I 1918

에 해당되며, 하둡 파일 시스템(Hadoop File System), 모자일에프에스(Mo-

gileFS)가 대표적이라고 할 수 있다.

다음으로 분석 단계에서는 데이터 수집과 동시에 분석을 수행하는 실시간

분석 플랫폼과 전체 또는 부분 데이터에 대해 복잡하고 다양한 분석을 수행하

는 배치 분석 플랫폼이 있다. 실시간 분석 플랫폼은 복잡한 분석보다 카운트,

집계 등 단순한 통합 연산 정도를 수행하는 것이며, 에스포(S4), 스톰(Storm)

등의 오픈소스 솔루션이 있다. 반면 배치 분석 플랫폼의 경우 대용량 처리를

위해 분산, 병렬처리를 필요로 하며 단순 텍스트 분석부터 그래프 분석까지

다양한 분석 모델을 지원한다. 하둡 분산 처리를 위한 맵리듀스(MapReduce)

를 포함하여 기라프(Girahp), 골든오알비(GoldenOrb)가 있다.

그 밖에도 클러스터링, 분류 등과 같이 데이터 마이닝을 위한 데이터 마이

팅/통계 도구도 빅데이터를 위한 필수기술에 해당하며 머하웃(Mahout), 알

(R) 등이 이에 해당한다.

마지막으로 클러스터 관리 및 모니터링, 데이터 시리얼라이네이션

(serialization)42)은 데이터 표현을 위한 기술이다. 대부분 분산 시스템으로 구

성되기 때문에 전체 클러스터에 대한 관제 및 모니터링이 복잡해지며, 이를

위해 주키퍼(ZooKeeper), 휴(HUE), 클라우몬(Cloumon) 등이 있다. 또한 이

기종 플랫폼 및 다양한 종류의 솔루션을 사용하기 때문에 데이터 전송 및 처

리에 대한 표준 프레임워크 또한 필요하며 대표적인 오픈소스로는 스리프트

(Thrift), 아브로(Avro), 프로토버퍼(ProtoBuf) 등이 있다.

표 1-5 빅데이터 분석 시스템 주요 기능별 오픈 소스

구분 설명 오픈소스

데이터 수집 • 데이터 발생원으로부터 데이터 수집하는 기능 Flume, Scribe, Chukwa

원본 데이터 저장

• 수집된 데이터를 저장하는 저장소• 비 구조적 데이터 저장소로 주로 대용량 파일 저장소

Hadoop Filesystem,MogileFS

42) 자바 프로그래밍에서 오브젝트의 정보를 비트열로 만들어 파일 등에 기록하고, 다시 읽어 들여 원래의 오브젝트로

만드는 것



구분 설명 오픈소스

구조적 데이터 저장

• 원본 데이터를 실시간으로 저장, 조회, 처리를 위한 저장소• 구조적 저장소 또는 검색엔진기술을 활용

NoSQL(Cloudata, HBase, Cassandra, MongoDB)

실시간 분석 플랫폼

• 데이터 수집과 동시에 분석을 수행• 복잡한 분석보다 Count, sum 등 단순한 aggregation 연산 수행

S4, Storm

배치 분석 플랫폼

• 전체 또는 부분데이터에 대해 다양한 분석 수행• 대용량 처리를 위해 분산, 병렬 처리 필요

Hadoop MapReduce(Hive, Pig), Griaph, GoldenORB

데이터마이닝/통계도구

• Cluster, Classification 등과 같이 데이터마이닝을 위한 기본 알고리즘 라이브러리 및 도구

Mahout, R

클러스터관리 및 모니터링

• 대부분 분산시스템으로 구성되기 때문에 전체 클러스터에 대한 관제 및 모니터링도 복잡

Zookeeper, HUE, Cloumon

데이터 Serialization

• 이 기종 플랫폼 및 다양한 종류의 솔루션을 사용하기 때문에 데이터 전송 및 처리에 대한 표준 프레임워크 필요

Thrift, Avro, ProtoBuf

스트리밍 데이터 프로세싱

• 스트리밍 데이터 프로세싱 기술Streaming DBMSDW Appliance

분산처리 기술• 관리기술, 분산 큐 기술• 분산 캐시 기능

ZooKeeper, kafkaMemcached, Redis

데이터 분석 알고리즘

• 데이터 분석을 위한 세부 기술h Social Network Analysys

Clique 분석Centrality 분석

출처: SAS, 201143) (재구성)

그림 1-7 오픈소스인 하둡 플랫폼의 구성요소

출처: IDG Korea(2012)44)

43) Philip Carter, “Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO”, SAS, 2011.

44) IDG Korea(2012), ‘빅데이터를 위한 개방형 DB 프레임워크“하둡”의 이해’


I 2120

빅데이터 분석 기술 및 시스템 현황45)

시장에 나와 있는 빅데이터 관련 기술은 다양하며, 아직까지는 시장 우위를

점하는 특정 기술과 제품이 없고 오픈소스 기술, 상용 솔루션, 클라우드 서비

스가 경쟁하고 있다. 오픈소스 하둡은 데이터 저장, 관리에 있어서 사실적 표

준(de facto standard)이 되었고, 주요 솔루션 업체들이 하둡과 연동하는 솔

루션 출시를 확대하고 있다. 하둡의 실시간 처리에 대한 요구가 증대되면서

클라우데라(Cloudera)의 ‘임팔라’(Impala)가 출시되었으며, 아파치 소프트웨

어 재단은 드릴(Drill) 프로젝트를 인큐베이팅하고 있다. 2012년에 구글이 글

로벌 분산 DB인 ‘스패나‘(Spanner)를 발표하여 새로운 기술적 전개가 예상되

며, 상용 솔루션은 다양한 통합솔루션을 출시하고 있어 본격적인 시장 확대가

기대된다.

표 1-6 빅데이터 처리 프로세스별 기술 영역

흐름 영역 개요

소스내부데이터 Database, File Management System

외부데이터 File, Multimedia, Streaming

수집크롤링(crawling) 검색엔진의 로봇을 이용한 데이터 수집

ETL(Extraction, Transformation, Loading) 소스데이터의 추출, 전송, 변환, 적재

저장

NoSQL Databases 비정형 데이터 관리

Storage 빅데이터 저장

Servers 초경량 서버

처리MapReduce 데이터의 추출

Processing 다중업무처리

분석

NLP(Natural Language Processing) 자연어처리

Machine Learning 기계 학습을 통해 데이터의 패턴 발견

Serialization 데이터간의 순서화

표현Visualization 데이터를 도표나 그래픽 적으로 표현

Acquisition 데이터의 획득 및 재해석

출처: 2013 데이터베이스백서 (재인용)




주요 기술 영역과 기술 요건46)

빅데이터 기술은 데이터 수집, 저장, 처리, 분석, 표현 및 활용, 관리로 나

뉜다.

표 1-7 빅데이터 주요 기술 영역과 기술 요건

구분 현실적 문제점 기술 요구사항

수집•대용량의 수집 대상 데이터•적재시간이 전체 시간의 상당 부분을 차지•데이터는 지속적으로 증가함

•대용량 데이터 수집•실시간 수집, 적재시간 단축•수평적 확장 용이성

저장•데이터 저장과 관리에 고비용 소요•저장된 데이터의 효율적 관리가 곤란•용량한계 봉착 시 확장 곤란(기술, 비용)

•대용량 데이터 저장•수평적 확장 용이성•데이터 저장에 낮은 TCO실현

처리 •데이터 처리, 연산에 고비용 소요•장시간의 처리로 데이터의 적시성 부족

•다차원 데이터의 고속 연산•다중 노드로 분산/병렬처리

분석

• 데이터 분석에 많은 연산 시간과 고비용 소요• 통계적 분석 기법의 프로그램 구현과 검증 문제• IT에 능통한 통계 및 분석 전문가의 부족

또는 부재

•검증된 통계적 기법 기반의 고급 분석•실시간 또는 준 실시간 분석•사용자와 상호작용하는 탐색적 데이터 분석

표현/활용

•분석된 빅데이터의 해석과 의미 파악 곤란• 다차원 빅데이터의 효율적인 비교 분석

방법 부재

•대용량 데이터의 요약적, 직관적 표현•다차원 데이터의 비교, 분석적 표현•실시간 인지 및 실시간 대응

관리

•다수 장비로 구성된 인프라의 관리 곤란• 각각 영역별로 특화된 다양한 기술요소들이

사용• 오픈소스 기반인 경우 관리도구가 부족 또는

부재•�처리,�분석관련�비즈니스로직이�분산되어�관리�곤란

•오픈소스를 보완하는 관리도구 제공• 통합 인프라 관리 체계(설치, 설정, 모니터링/

관제 등)• 수집부터 활용까지 각 영역을 통합하는

비즈니스로 직 관리 체계 제공


저장/처리/분석의 구현방식에 따른 기술 분류47)

빅데이터 기술은 디스크(disk)기반 기술, 인메모리(in-memory)기반 기술,

인데이터베이스(in-DB)기반 기술 등으로 분류할 수 있다. 디스크 기반 기술




I 2322

은 주로 오픈소스 기술들로 저가 디스크를 저장소로 하여 대용량 데이터를 저

장, 관리하고 분산/병렬 처리 메커니즘으로 연산 성능을 향상하고 있다. 인메

모리 기반 기술은 메모리 내 고속 연산 성능을 이용하여 대용량의 데이터를

신속히 처리하여 사용자의 탐색적 데이터 분석이 용이하도록 한다. 인데이터

베이스 기반 기술은 관계형 데이터베이스 관리 시스템(Relational Data Base

Management System; 이하 RDBMS) 또는 분산/병렬 데이터베이스 관리 시

스템(Data Base Management System; 이하 DBMS) 내부에 분석 기능을 탑

재해 데이터 적재와 처리 시간을 단축하고 분석의 효율을 강화시킨다.

표 1-8 구현방식에 따른 빅데이터 기술 분류

구현 방식 설명 관련 SW, 솔루션

Disk 기반

• 다수의 서버들을 네트워크로 연결, 분산, 저장하여 저장소를 확장하고, 병렬 처리를 통해 연산성능을 향상시키는 빅테이터 처리 기술

Hadoop, DISCO, Hbase, Cassandra, Mongo- DB, Sybase IQ, GreenPlumn, Vertica- Endeca 등

In-Memory

• Disk보다 Read/Write 속도가 빠른 메모리의 특성을 이용한 메모리 기반 빅데이터 처리 기술

• 단일 노드의 메모리 제약을 극복하기 위해 압축기술과 grid computing 형태로 확장성을 확보함

R, Revolution R, VoltDB, SAP HANA, SAS inmemory, GridGain, Tableau, Spotfire, QlickView 등

In-DB

• 분석기능 자체를 DB에 embedded시켜 DB - Application 서버간 데이터 이동, 적재의 부하와 시간을 단축시키는 빅데 이터 처리DB

SAS in-database, Teradata Aster 등

출처 : LG CNS AA센터, 2013


또는 빅데이터와 관련하여 다음과 같이 기술들을 구분할 수 있다.10)

- 대용량 데이터 처리 능력을 위한 분산처리 기술 : 하둡 분산 파일 시스템

(Hadoop Distributed File System; 이하 HDFS), 분산 데이터베이스

(HBase), 맵리듀스(MapReduce) 등

- 인메모리 기술 : 인메모리 기술에서는 메모리상에 필요한 데이터와 이의



인덱스를 보관함으로써 데이터 검색 시간을 크게 줄일 수 있음

- 의미분석 기술과 진보된 알고리즘 및 데이터마이닝 기술: 예를 들어 통계

계산 및 그래픽을 위한 ‘R’ 언어

- 비정형 데이터를 처리하기 위한 NoSQL 기술 : 아파치 카산드라(Cassan-

dra)와 카우치디비(CouchDB), 구글의 빅테이블(BigTable), 아마존의 다이

나모(Dynamo), IBM 로투스 도미노(Lotus Domino) 등

빅데이터 시스템 관련 오픈소스48)

오픈소스는 빅데이터 기술의 원조인 구글이 최초로 방향을 제시하고 아

파치 소프트웨어 재단이 중심이 되어 이끌어 가는 양상을 보인다. 하둡,

NoSQL, 오픈소스 분석엔진 등으로 구분되고, 개별 오픈소스 프로젝트들이

상호 유기적으로 연결되어 발전하고 있으며, 이들을 이용하거나 보완하는 상

용 솔루션들의 출시가 이어지고 있다.

가. 하둡(Hadoop)49)

대량의 자료를 처리할 수 있는 대규모 컴퓨터 클러스터에서 동작하는 분산

응용 프로그램을 지원하는 오픈소스 소프트웨어 프레임워크이다.

구글의 GFS(Google File System) 논문을 기반으로 더그 커팅(Doug Cut-

ting)에 의해 탄생한 하둡은 관련 타 오픈소스 프로젝트들과 하둡 생태계를

형성하며 빅데이터 수집/저장/처리의 사실적 표준이 되었다.

하둡은 HDFS(Hadoop Distributed File System)를 이용하여 데이터 저장,

관리의 안정성과 비용절감 효과를 제공하며, 맵리듀스(MapReduce) 프레임워

크로 기존 처리에 오랜 시간이 걸리던 대용량 데이터도 단시간 내에 일괄처리

로 연산할 수 있다.

이런 특성들로 하둡은 로그데이터의 저장, 분석에 활용되거나 대용량 멀티

미디어 데이터의 저장, 분석, 데이터웨어하우스(Data Warehouse; DW)의 데

이터 클린징과 이티엘(Extraction, Transformation, Load; ETL) 작업 등 분


49) 위키백과, 2013. 7. 15.


I 2524

야에 응용되어 검증되었으며 새로운 분야에 적용하는 다양한 시도들이 진행

중에 있다.

하둡은 데이터 저장/처리 외에 분석툴과 연계하여 활용할 경우 매우 효과적

이라 할 수 있다. 예를 들어, 하둡과 오픈소스 통계툴인 ‘R’을 연계하거나 머하웃

(Mahout)와 같은 기계학습 알고리즘을 활용할 경우 대규모의 데이터세트(da-

taset)를 분석할 수 있다. 빅데이터의 하둡과 연계하여 고급분석이 가능하며, 이

경우 기존 DBMS를 이용할 때 보다 데이터 저장, 처리, 분석시 확장성이 높다는

장점과 처리시간의 단축을 기대할 수 있다.

나. NoSQL (Not Only SQL)

NoSQL은 기존 RDBMS의 빅데이터 처리시 수평 확장과 성능 한계를 극복하

기 위해 인터넷 기업들이 고안해낸 새로운 개념의 DBMS이다. 확장성과 성능

한계를 해결하는 대신 기존 RDBMS의 구조화 질의어(Structured Query Lan-

guage; 이하 SQL) 질의 방식과 관계형 데이터 모델을 포기하고 데이터 접근에

응용프로그램 인터페이스(Application Program Interface; 이하 API) 또는 자

체 질의어를 사용하고 응용 프로그램에 DBMS의 제약조건과 트랜잭션 처리 기

능을 위임하는 형태를 취하고 있다.

최근 부각되는 NoSQL로는 컬럼 기반인 HBase를 들 수 있는데 HBase는

하둡을 파일시스템으로 하기 때문에 하둡과의 연계가 용이하고 하둡의 실시

간 요구를 보완하는 목적으로 활용 가능하다. 그 외에 유연한 스키마 구조를

지원하는 문서기반 NoSQL로 몽고디비(MongoDB)를 들 수 있는데 단편적인

대용량 데이터의 저장과 출력에 유리하여 주로 인터넷 기업들 또는 B2C 서비

스를 구축하는 기존 기업들에 적용되고 있다.

다. 오픈소스 분석 솔루션

분석 소프트웨어를 오픈소스로 활용하고자 하는 요구로 인해 통계학 분야를

중심으로 ‘R’이 탄생하게 되었다. R은 집단지성이 지속적으로 발전하여 최신

통계분석 기법들을 내장하고 시각화 기능까지 강화되어 상용 솔루션 수준의 분

석 기능을 제공한다. R의 이용이 확대되면서 하둡 등에 R을 접목하고자 하는



시도가 활발히 진행 중이며, ‘레볼루션알‘(Revolution R)이나 ’오라클알‘(Oracle

R)과 같이 상용 솔루션에서도 R을 접목하고자 하는 시도가 일어나고 있다.

하둡은 매 프로젝트마다 반복적으로 구현되는 맵리듀스 분석 알고리즘을 취

합, 라이브러리화하여 머하웃을 만들었다. 머하웃은 분석 알고리즘을 재사용하

여 알고리즘 구현과 검증의 공수를 절감시켜 생산성을 향상 시킬 수 있으며, 분

석된 다차원 데이터의 다양한 시각화를 지원하는 오픈소스도 등장했다. 상용 솔

루션만큼 상호작용 사용자 인터페이스를 제공하지 못하지만 학계에서 시도되는

다양한 시각화 기법이 적용되는 것이 특징이다. 대표적인 제품으로 스탠포드대

학에서 개발하여 오픈소스화한 프로토비스(Protovis)와 그누(GNU’s Not Unix;

이하 GNU)50)가 주도하는 그누플롯(GNUplot) 등이 있다.

분석 소프트웨어 또는 분석툴51)

가. 분석 전용 솔루션

실제 분석된 빅데이터는 다차원의 정보를 담고 있어 시각적인 분석결과를

통한 탐색적인 데이터 분석을 요구한다. 이런 기능이 취약한 오픈소스를 보완

하기 위해 분석 전용 솔루션이 등장하게 되었다. 주로 메모리에 분석 데이터

를 적재하고 분석하고 시각화 도구를 이용하여 빅데이터의 시각화 분석을 지

원한다.

다양한 검증 분석 기법을 포함하고 있어서 사용자의 관심 이동에 따라 다양

한 관점으로 데이터를 분석할 수 있다. 대표적 상용 솔루션으로 새스(SAS),

클릭뷰(QlickView), 스폿파이어(Spotfire), 타블로(Tableau) 등을 들 수 있으

며, 대부분 하둡과 연계를 지원하고 있어 하둡 내에 수집, 저장, 처리, 분석된

데이터를 최종단계에서 시각화, 분석 및 판단하는 것이 가능하다.

나. 빅데이터 어플라이언스(Big Data Appliance)

DW 어플라이언스는 기존 DW의 성능한계 극복을 위해 등장했지만 수평 확

50) 소프트웨어의 공개 개념을 표방하는 비제도권 단체인 자유 소프트웨어재단(free software foundation)의 종합적인

프로젝트



I 2726

장의 제약으로 저장용량의 한계를 극복하진 못했다. 또 하둡과 하둡 대체보완

솔루션 및 기타 분석 솔루션들 모두 최적의 성능을 내려면 하드웨어와 소프트

웨어의 튜닝에 많은 노력과 높은 기술력을 요구한다. 이는 빅데이터 도입 비

용을 상승시키고 높은 유지보수 비용을 요구하게 된다.

이런 문제들을 해결하고자 기존 DW 어플라이언스를 보완/대체하기 위해

빅데이터 솔루션과 하드웨어를 일체화하여 성능과 관리를 최적화한 빅데이터

어플라이언스 제품이 등장하게 되었다.

이런 제품으로는 이엠씨(EMC)의 그린플럼(Greenplum), 오라클의 비디에

이(BDA), HP의 버티카(Vertica) 등이 대표적이며, 중소 업체들도 자신들만의

강점과 특징을 내세워 속속 제품들을 출시하고 있다. 초기 투자비용은 직접

구축하는데 비해 높지만 유지보수와 최적화 문제를 해결할 수 있기 때문에 빅

데이터 도입의 기술적 리스크를 절감하고자 할 경우 해결책이 될 수도 있다.

클라우드 서비스52)

클라우드 서비스는 다년간 축적해온 클라우드 컴퓨팅 서비스 경험과 기술

력을 기반으로 자체적인 인프라와 관리 인력을 유지하기 힘든 중소기업을 대

상으로 클라우드 환경에서 빅데이터의 저장, 분석을 서비스 형태로 제공하기

시작했다.

가. 하둡 온 클라우드(Hadoop on cloud)

하둡을 클라우드 컴퓨팅 환경에서 손쉽게 사용할 수 있는 표준화된 플랫폼

(Platform as a Service; 이하 PaaS) 서비스인 하둡 온 클라우드는 빠르게 하

둡 클러스터 환경을 구축할 수 있으며, 장애, 복구, 확장 등의 서비스 관리를

위임할 수 있다.

아마존의 이엠알(Elastic MapReduce; EMR), 마이크로소프트의 하둡 온 애

저(Hadoop on Azure), 구글의 컴퓨트 엔진(Compute Engine) 등이 대표적이

다. 아마존의 EMR은 아마존의 표준화된 인프라스트럭쳐(Infrastgructure as a




Service; 이하 IaaS) 서비스인 이씨투(Elastic Cloud Compute; EC2)와 에스쓰

리(Simple Storage Service; S3)를 내부의 대규모 하둡 클러스터와 연계하여 사

용자 별로 자원을 할당하고 데이터의 사용량에 따라 과금하는 방식으로 서비스

한다. 더불어 자체 NoSQL DB인 다이나모디비(DynamoDB)를 제공하고, 카르

마스피어(Karmasphere)의 그래픽 사용자 인터페이스(Graphic User Interface;

GUI)와 통합 개발환경(Integrated Development Environment; IDE)를 제공

하여 개발 및 관리의 생산성을 지원하는 하둡은 맵알(MapR)의 M3/M5를 사용

한다. 마이크로소프트의 하둡 온 애저도 M3/M5를 제공하며 SQL 서버 온 애저

(SQL Server On Azure)와 연동되는 서비스를 제공한다. 구글도 최근 컴퓨트

엔진에 맵알의 M3/M5의 채택을 발표하여 조만간 서비스 될 예정이다.

나. 애널리틱스 온 클라우드(Analytics on cloud)

하둡 온 클라우드 서비스는 자원을 즉시 사용하고 시스템 관리 비용을 절감

할 수 있지만, 하둡에 익숙한 사용자가 비즈니스 로직을 개발하고 디버깅과

검증을 해야 한다.

이를 보완하기 위해 비즈니스 로직을 손쉽게 구성하고 데이터 분석의 노력

을 절감하여 분석 자체에 집중할 수 있도록 지원하는 서비스가 등장하였다.

대표적인 사례로 구글의 빅쿼리(Big Query)가 있는데, SQL과 같은 인터페

이스를 이용하여 구글의 컴퓨팅 자원에서 빠른 시간 내에 데이터 분석을 지

원한다. 현재는 1 테라바이트의 용량 한계가 있고, CSV(Comma-Separated

Values) 형태의 데이터만 지원하지만, 향후 저장 용량과 지원 데이터의 형태

도 다양해질 전망이다. 향후 이와 유사한 형태로 특정 비즈니스 도메인에 특

화된 서비스 소프트웨어(Software as a Service; SaaS) 형태의 분석 서비스

가 제공될 전망이다.


I 2928

빅데이터 기반의 정보분석



비즈니스 인텔리전스(Business Intelligence)

산업시장 정보분석과 비즈니스 정보분석

산업시장 정보분석은 주로 비즈니스 인텔리전스(Business Intelligence, 이

하 BI)의 일부를 의미하는데, 정보의 중요성이 더욱 커지는 현대에는 거의 비

슷한 개념으로 볼 수 있을 정도이다. 따라서 본 보고서에서는 BI와 같은 개념

으로 표현하고자 한다. 또한 최근에는 빅데이터의 활용이 대두되면서 비즈니

스 애널리틱스(Business Analytics, 이하 BA) 및 빅데이터 애널리틱스(Big

Data Analytics, 이하 DBA)의 관점에서 더욱 의미가 있을 것으로도 생각해

볼 수 있다.

비즈니스 인텔리전스(BI)53)

이 용어는 1958년의 한 문헌에서, IBM 연구자 하스 피터 룬(Has Peter

Luhn)이 “business intelligence”라는 용어를 처음 사용하였다. 그는 인텔리

전스(intelligence)를 원하는 목적을 향한 행동을 인도하는 방법과 같이 현재

의 사실들의 상관관계를 이해하는 능력이라 정의하였다.54)

BI는 오늘날에는 1960년대에 시작되어 1980년 중반에 걸쳐 개발되어온 의

사결정 지원 시스템(decision supporting system; DSS)에서 진화해온 것으

53) Wikipedia, the free encyclopedia (2013. 7. 26.)

54) H P Luhn (1958). "A Business Intelligence System". IBM Journal 2 (4): 314. doi:10.1147/rd.24.0314.

빅데이터 기반의 정보분석


I 3130

로 알려져 왔다. 즉, 의사결정 및 기획을 지원하기 위해 창조된 컴퓨터-지원

모델(computer-aided models)인 DSS에 기원한다. DSS에서 시작하여 1980

년대 후반부터는 데이터 웨어하우스, 경영자 정보 시스템(Executive Infor-

mation Systems), 올랩(On-line Analytical Processing; 이하 OLAP) 및 비

즈니스 인텔리전스에 대해 많은 관심이 모아지시 시작하였다.

1989년 하워드 드레스너(Howard Dresner; 후에 Gartner 그룹 분석가)는

제안하기를 “business intelligence”를 ”사실 기반 지원시스템을 사용함으로

써 비즈니스 의사결정을 개선하기 위한 방법 및 개념“으로 설명하는 포괄적

용어를 제안하였으며,55) 이러한 개념은 1990년 후반에 이르러서야 널리 사용

되게 되었다.

BI와 데이터웨어하우스(DW)56)

주로 BI 응용은 DW 또는 데이터마트에서 수집된 데이터를 사용한다. DW

는 의사결정 지원을 도와주는 거래 데이터의 복사본을 의미한다. 그러나 모든

DW 데이터가 BI를 위해 사용되는 것은 아니지만, 모든 BI 응용은 DW를 필요

로 하고 있다.

BI의 개념과 DW를 구분하기 위해 포레스터 리서치(Forrester Research)는

주로 2가지로 BI를 정의한다.

① 광의의 정의: BI는 방법론, 과정, 아키텍처 및 원시 데이터를 의미있고 유

용한 정보로 변환시키는 기술들의 일련의 집합체인데, 더 유효한 전략, 전

술 및 운영 통찰력 및 의사결정을 가능케 해준다.57)

이러한 정의에 의하면, BI는 다음과 같은 기술들을 포함한다. 통합(inte-

gration), 데이터 품질, 데이터웨어하우징, 마스터 데이터 관리 및 텍스

트-콘텐츠 애널리틱스, 그리고 기타 많은 시장관련 정보 관리 분야 등이

포함된다. 따라서 포레스터는 데이터 제조와 데이터 사용, 즉, 두가지로

55) D. J. Power (10 March 2007). "A Brief History of Decision Support Systems, version 4.0". DSSResources.COM.

Retrieved 10 July 2008.


57) Evelson, Boris (21 November 2008). "Topic Overview: Business Intelligence".



분리되지만 BI 아키텍처 스택으로 구성되어 밀접하게 연결되어 있는 부문

으로 설명하였다.

② 협의의 정의: 포레스터는 BI를 BI 아키텍처 스택의 맨 꼭대기 층, 즉, 리

포팅, 애널리틱스 및 대시보드라고 협의적으로 정의하였다.58)

BI의 개념59)

BI는 비즈니스를 위해 원천 데이터를 의미있고 유용한 정보로 변환시키는

일련의 이론, 방법론, 과정, 아키텍처 및 기술을 의미하며, 새로운 기회를 확

인하고 개발하는 것을 도와주기 위해 대규모의 정보를 다룰 수 있어야 한다.

이러한 새로운 기회와 유효 전략의 도구(수단)를 사용하는 것은 시장에서 경

쟁력 우위와 장기간의 안정성을 가져다 준다.

BI 기술은 비즈니스 작업(산업시장 정보분석 등)에 있어서 과거, 현재 및 미

래 예측 관점을 제공하는 것이다. 일반적 기능에는 보고(reporting), 온라인

분석 처리, 애널리틱스(analytics), 데이터 마이닝, 프로세스 마이닝, 복잡 이

벤트 처리, 비즈니스 성과 관리, 벤치마킹, 텍스트 마이닝, 예측 애널리틱스

(predictive analytics) 및 규범적 애널리틱스(prescriptive analytics) 등이 포

함된다고 할 수 있다.

BI는 가끔 경쟁 인텔리전스(competitive intelligence; CI)의 유사어가 되기

도 하는데, 이는 둘 다 의사결정을 지원하기 때문이다. BI는 기술, 프로세스

및 응용들(가장 내부적, 구조적 데이터 및 비즈니스 과정을 분석하는 응용들)

을 사용하는데 반해, CI는 기업 경쟁자에 대한 시사적 집중(topical focus)을

하면서 정보를 수집, 분석 및 전파하는 것이다. 넓게 보면 BI는 CI의 부분으로

생각할 수 있다.60)

58) Evelson, Boris (29 April 2010). "Want to know what Forrester's lead data analysts are thinking about BI and the

data domain?".


60) Kobielus, James (30 April 2010). "What’s Not BI? Oh, Don’t Get Me Started....Oops Too Late...Here Goes....".

"“Business” intelligence is a non-domain-specific catchall for all the types of analytic data that can be delivered

to users in reports, dashboards, and the like. When you specify the subject domain for this intelligence, then

you can refer to “competitive intelligence,” “market intelligence,” “social intelligence,” “financial intelligence,”

“HR intelligence,” “supply chain intelligence,” and the like."


I 3332

애널리틱스(Analytics)

애널리틱스의 의미61)

애널리틱스란 데이터에서 의미있는 패턴의 발견하고 이를 소통시키는 것

을 의한다. 특히 저장된 정보가 풍부한 영역에서 가치가 있는데, 애널리틱스

는 통계, 컴퓨터 프로그래밍 및 성과를 정량화하기 위한 운영과학(Operation

Research; OR) 등을 동시에 이용하게 된다. 또한 애널리틱스는 통찰력을 소

통하기 위해 일반적으로 데이터 가시화를 강조하게 된다.

그림 2-1 구글 애널리틱스 대시보드 사례 (동향을 확인하고 의사결정을 지원하기 위한 툴)

61) Wikipedia, 2013.7. 15.



기업은 일반적으로 애널리틱스를 비즈니스 데이터에 적용하여 비즈니스 성

과를 설명하고, 예측하고, 개선하기 위해 사용한다. 특히, 애널리틱스는 다음

과 같은 영역, 즉, 기업 의사관리, 소매 분석, 점포 분류(assortment)와 최소

유지 상품단위(Stock Keeping Unit; SKU) 최적화, 마케팅 최적화와 마케팅

혼합 애널리틱스, 웹 애널리틱스, 판매력 규모와 최적화, 가격과 홍보 모델링,

예측 과학, 신용 위험 분석 및 가짜 분석 등에 활용된다.

애널리틱스는 대량의 연산을 요구하기 때문에 애널리틱스를 위해 사용되는

알고리즘과 소프트웨어는 컴퓨터 과학, 통계 및 수학에 있어서 가장 최신의

방법이 적용되는 경우가 많다.62)

리서치기관의 조사에 따르면 경영성과가 높은 기업이 낮은 기업보다 애널

리틱스를 더 많이 활용하고 있다는 통계가 있으며63), 활용분야에서도 재무관리

에서부터 영업, 마케팅, 고객관리는 물론이고 인력관리에까지 활용을 넓히고

있다. 특히 운영 효율성, 전략수립, 고객서비스에서도 높은 활용도를 보이고

있다.

애널리틱스의 유형

- 기술적 애널리틱스(Descriptive Analytics):

: 과거 데이터(리포팅, 스코어카드, 클러스터링 등)로부터 통찰력을 얻는 것

- 예측적 애널리틱스(Predictive Analytics)

: 통계적이고 기계학습적인 기법을 활용한 예측 모델링

- 규범적 애널리틱스(Prescriptive Analytics)

: 최적화 및 시뮬레이션 등에 의한 추천 의사결정

애널리틱스의 역사64)

애널리틱스는 19세기 후반에 프리드릭 윈스로우 테일러(Frederick Win-

slow Taylor)에 의해 시작된 시간 관리 작업이후부터 비즈니스에서 사용되어

62) Kohavi, Rothleder and Simoudis (2002). "Emerging Trends in Business Analytics". Communications of the ACM

45 (8): 45 48.


64) Wikipedia, the free encyclopedia (2013.7.26.)


I 3534

왔으며, 헨리포드(Henry Ford)는 조립 라인의 진도를 측정하였다. 그러나 애

널리틱스는 컴퓨터가 의사결정 지원시스템에 사용되기 시작하던 1960년대 후

반부터 더 많은 관심을 받게 되었다. 그 이후로 애널리틱스는 전사적 자원관

리(Enterprise Resource Planning; ERP)시스템, 데이터웨어하우스 및 폭넓

고 다양한 다른 하드웨어와 소프트웨어 툴 및 응용 제품의 개발로 진화되어

왔다.65)

최근 빅데이터의 대두 및 사용하기 쉬운 BI 툴로 인해, 데이터는 과거에 비해

비즈니스 전문가와 관리자들에게 더욱 접근이 쉬워졌다. 따라서 이러한 데이터

를 활용하여 이익 증가를 촉진하고, 더 좋은 제품을 제조하여 비용과 손실을 감

소시키고, 소비자 경험을 개선하고, 사기행위를 미리 탐지하고, 타게팅과 고객

맞춤을 통한 소비자 관계를 개선하는데 사용함으로써 더 좋은 의사결정을 내릴

수 있게 되었다. 더욱 더 많은 기업이 이제는 직원들로 하여금 매일의 의사결정

에서 효율성을 높이기 위해 BA의 노하우를 강조하고 있다.66)

분석(analysis)과의 비교67)

애널리틱스는 양면을 가진 동전이라 할 수 있는데, 한 면은 기술적(des-

criptive)이고 예측적인(predictive) 모델을 사용하여 데이터에서 가치있는 지

식을 얻는다는 것, 즉 데이터 분석(data analysis)의 속성이고, 다른 한 면은

이러한 통찰력을 이용하여 행동을 추천하거나 의사결정을 안내하는 것, 즉,

커뮤니케이션(communication)이라는 속성이다. 따라서 애널리틱스는 개

별 분석이나 분석 단계를 그리 크게 고려한다기 보다는 전체적 방법(entire

methodologies)을 고려하는 것으로 이해할 수 있다.

기업 환경에서는 분명히 애널리틱스 용어를 더 많이 사용하는 경향이 있으

며, 텍스트 애널리틱스(text analytics)는 일반적인 텍스트 마이닝(text min-

ing)보다 더 넓은 관점에서 분석하는 것이라 할 수 있다.

65) Davenport, Thomas H.; Harris, Jeanne G. (2007). Competing on analytics : the new science of winning. Boston,

Mass.: Harvard Business School Press. ISBN 978-1-4221-0332-6.

66) Jain, Piyanka. "Analytics is Fast Becoming a Core Competency for Business Professionals". Forbes. Forbes.

Retrieved 10 May 2013.

67) Wikipedia, 2013.7.15.



애널리틱스의 응용분야68)

실시간 분석이 사용되는 분야로는 은행의 신용 위험 및 시장 위험 분석, 은

행의 부정 사용 및 자금세탁 탐지, 금융 및 통신회사의 이벤트마케팅, 유통업

종의 마크다운 최적화, 공공분야의 보상 및 과제 부정청구 등을 들 수 있다.

배치성 분석이 사용되는 분야로는 항공회사의 예방정비, 소셜미디어 감성

분석, 제조업체의 수요예측, 전자의료기록관리의 질병분석, 전통적 데이터웨

어 하우징, 마이닝테스트, 비디오감시 분석 등이 있다.

애널리틱스의 활용 영역69)

가. 마케팅 최적화(Marketing optimization)

마케팅은 창조적 과정에서 고도의 데이터 구동 과정으로 진화해왔다. 따

라서, 마케팅 기관은 애널리틱스를 사용하여 캠페인 또는 노력의 성과(out-

come)를 측정(결정)하고, 투자 및 소비 타케팅에 대한 의사결정을 지원한다.

인구학적 연구(demographic studies), 소비자 분할, 컨조인트 분석(conjoint

analysis) 및 기타 기법들은 마케터들로 하여금 거대한 양의 소비자 구매, 설

문 및 패널 데이터를 사용하여 마케팅 전략을 이해하고 커뮤티케이션이 가능

하도록 해준다.

나. 웹 애널리틱스(web analytics)

마케터들로 하여금 웹사이트에서의 상호작용에 관한 세션 수준의 정보를

수집하도록 한다. 이러한 상호작용은 웹 애널리틱스 정보 시스템을 가능케 하

는데, 조회자, 검색 키워드, IP 주소 및 방문자 활동 등을 추적하는 정보를 가

지고 있게 된다. 이러한 정보를 이용하여 마케터는 마케팅 캠페인, 사이트 제

조 콘텐츠 및 정보 아키텍처를 개선할 수 있다.

다. 분석 기법(analysis techniques)


69) Wikipedia, 2013. 7. 15.


I 3736

마케팅에서 종종 사용되는 분석기법은 마케팅 혼합 모델링, 가격결정 및 홍

보 분석, 판매력 최적화(sales force optimization), 소비자 분석 또는 분할

(segmntation) 등이 있다. 웹 애널리틱스와 웹사이트 및 온라인 캠페인의 최

적화는 이제는 더욱 자주 전통적인 마케팅 분석 기법과 함께 이용된다.

이러한 도구와 기법들은 마케팅에 소요된 비용이 전체 얼마이고, 어떻게 예

산을 배분해야하는지, 브랜드의 포트폴리오와 마케팅 혼합에 있어서 전략적

인 마케팅 의사결정과 더 전술적인 캠페인 지원, 그리고 소위 최선의 잠재 소

비자를 타켓으로 하여 가장 저렴하고 효율적인 매체로 이상적인 시간에 최적

화된 메시지를 가지고 모두 지원하도록 해준다.

라. 포트폴리오 분석(portfolio analysis)

BI의 일반적 용도는 포트폴리오 분석이다. 여기에는 은행 또는 금융기관이

다양한 가치와 위험에 대한 계정 항목(accounts)을 수집한 것이 포함된다. 계

정 항목은 계정 소유자의 사회적 지위(부유, 중산, 빈곤 등), 지형적 위치, 그

것의 순가치 및 다른 많은 요인들에 따라 다르다. 금융기관은 대출에 의한 이

익과 각각의 대출에 대한 채무 불이행(default) 위험의 균형을 맞추어야만 한

다. 따라서 문제는 전체 포트폴리오를 어떻게 평가하는가이다.

균형을 통해 이익을 최대화하고 위험을 최소화해야 한다. 애널리틱스 솔루

션은 시계열 분석과 결합하여, 많은 다른 이슈사항들에 대해 활용된다. 즉, 다

른 채무자 세그먼트에 언제 대출할지에 대한 의사결정, 또는 그러한 세그먼트

에서 어떤 손해를 감수하기 위해 포트폴리오 세그먼트의 멤버들에게 이자율

은 어떻게 적용할지에 대한 의사결정을 위해 사용된다.

마. 위험 애널리틱스(risk analytics)

은행 산업에서 예측 모델은 널리 개발되었는데, 개개 고객에 대한 위험 점

수를 확인해 준다. 신용 점수는 개인의 연체 행위를 예측하도록 만들어 졌으

며, 각각의 신청자의 신용 가치를 평가하는데 널리 사용되고 대출 신청 처리

시 등급화 된다.



바. 디지털 애널리틱스(digital analytics)70)

일련의 비즈니스 및 기술적 활동으로, 디지털 데이터를 정의하고, 창조하고,

수집하고, 확인하거나 변형하여 보고, 연구, 분석, 추천, 최적화, 예측하는 것을

의미한다.

비즈니스 애널리틱스(Business Analytics, 이하 BA)71)

비즈니스 애널리틱스(BA)는 통찰력을 얻고 사업 계획을 촉진하기 위해 과

거의 비즈니스 성능을 조사하고 계속적으로 반복하여 탐사하기 위한 스킬, 기

술, 애플리케이션과 실행을 의미한다.72) 비즈니스 애널리틱스는 데이터 및 통

계적 기법을 기반으로 비즈니스 성과를 이해하고 새로운 통찰력 증진시키는

것에 중점을 두고 있다.

대조적으로, 비즈니스 인텔리전스(BI)는 전통적으로, 과거의 성과를 측정하

는 것과 데이터 및 통계적 기법을 기반으로 사업 계획을 세우는 것, 그리고,

이 모두에게 일관된 측정 기준(set of metrics)을 사용하는데 초점을 맞추고

있다.

또한, 비즈니스 애널리틱스(BA)는 데이터를 광범위하게 사용하는 것으로,

통계 및 정량적 분석, 설명적이고 예측적인 모델링73) 및 의사결정을 도출하기

위한 사실 기반의 관리 등을 광범위하게 이용하는 것이다. 여기서 애널리틱스

는 인간의 의사결정을 위한 투입요소로 사용되거나 완전히 자동화된 의사결

정을 이끌어내는 것을 의미한다.

반면에, 비즈니스 인텔리전스(BI)에는 쿼링(querying), 보고(reporting),

OLAP 및 “경보(alerting)” 등의 도구들이 포함되는데, 이러한 툴들은 “무엇이

발생했는지”, “얼마나 많이”, “얼마나 자주”, “어디에서 문제가 발생했는지”,

그리고 “어떠한 행동이 필요한지”에 대한 해답을 제공하고자 한다.

70) Phillips, Judah "Building a Digital Analytics Organization" Financial Times Press, 2013. Pgs 7-8.


72) Beller, Michael J.; Alan Barnett (2009-06-18). "Next Generation Business Analytics". Lightship Partners LLC. http://

www.docstoc.com/docs/7486045/Next-Generation-Business-Analytics-Presentation. Retrieved 2009-06-20.

73) Galit Schmueli and Otto Koppius. "Predictive vs. Explanatory Modeling in IS Research". http://www.citi.uconn.

edu/cist07/5c.pdf.


I 3938

비즈니스 애널리틱스(BA)는 “왜 이러한 문제가 발생했는지”, “이러한 경

향이 계속된다면 어떻게 될 것인지”, “다음에는 무엇이 발생할 것인지(즉, 예

측)”, “발생할 수 있는 가장 최선의 것은 무엇인지(즉, 최적화)” 등과 같은 문

제에 답을 주게 된다.

그림 2-2 비즈니스 애널리틱스 프레임워크

출처: IDC(2011)74)

빅데이터 애널리틱스

빅데이터 애널리틱스(Big Data Analytics; 이하 BDA)의 의미75)

빅데이터 애널리틱스는 빅데이터 집합(sets)에서 작동하는 고급의 분석 기

술이다. 따라서 빅데이터 애널리틱스는 말 그대로 2가지(빅데이터/애널리틱

스)에 관한 것이고, 추가적으로 어떻게 이 두가지가 조화를 이루어 오늘날의

비즈니스 인텔리전스에서 가장 큰 트렌드를 만들어낼 것인가이다.

2009년 TDWI(The Data Warehousing Institute) 설문에 따르면, 38%의

조직이 고급 애널리틱스를 실행하고 있는 반면에 나머지 85%는 3년내에 실행

하려한다고 응답했는데, 이렇게 고급 애널리틱스를 지향하는 이유는 다음과

같다.

74) IDC. Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO, 2011. 09.

75) Russom Philip, Big Data Analytics, TDWI(The Data Warehousing Institute), 2011



첫째, 비즈니스에 만연한 변화를 들 수 있는데, 최근에 겪고 있는 다중의

“경제”(multiple “economies”) 측면에서 볼 때, 애널리틱스는 무엇이 변해왔

고 어떻게 반응(대응)해야 하는지를 발견하도록 도와주는 것이다.

둘째, 우리가 침체에서 빠져나와 회복에 이를 때, 획득해야 할 더 많은 비

즈니스 기회가 있다. 결국에는 고급 애널리틱스는 새로운 고객군(customer

segments)을 발견하고, 최선의 공급자를 확인하고, 선호도를 제품에 연관시

키고, 판매의 계절성을 이해하는 등을 위한 최선의 방법인 것이다. 이러한 이

유로, TDWI는 최근에 애널리틱스를 구현하는 이용자 조직이 지속되고 있다

는 것을 알게 되었다.

애널리틱스를 지향하는 많은 조직들이 처음에는 고급 애널리틱스를 접하

고, 어떻게 다루어야 할지 혼란스러워 한다. 데이터 웨어하우징, 리포팅 및

OLAP 등에서의 관련 경험이 있다고 하더라도, 고급 형태의 애널리틱스에 있

어서 비즈니스와 기술적 요구사항이 다르다는 것을 알게 된다. 따라서 이 때

이용자들이 빅데이터 고급 애널리틱스와 애널리틱 데이터베이스를 활용하면

인텔리전트한 의사결정을 내릴 수 있게 된다.

주목할 것은, 이용자 조직들은 특정 형태의 애널리틱스(특히, 때때로 고급

애널리틱스로 불리움)를 구현하고 있는데, 이것은 관련 기법들과 도구 유형들

이 모아진 것으로, 일반적으로 예측적 애널리틱스(predictive analytics), 데

이터마이닝, 통계 분석 및 복잡 SQL(complex SQL) 등을 포함한다.

“고급 애널리틱스” 대신에 더 좋은 용어는 “발견 애널리틱스(discovery an-

alytics)”라 할 수 있는데, 그 이유는 이용자들이 수행하고자 하는 것이기 때문

이다. 빅데이터에 대한 발견 애널리틱스는 다양한 형태의 애널리틱 툴들로 가

능할 수 있다. 그러한 툴들은 SQL 질문식, 데이터마이닝, 통계 분석, 요인 클

러스터링(fact clustering), 데이터 가시화, 자연어 처리(Natural Language

Processing; NLP), 텍스트 애널리틱스(text analytics), 인공 지능(artificial

intelligence) 등에 기반한 것들이다.

이러한 기법 모두는 그리 오래된 것은 아니고, 이들 중 많은 것이 1990년 대

에 선보였다. 오늘날의 차이점은 훨씬 더 많은 이용자들이 실질적으로 사용하

고 있다는 것이다. 그것은 이러한 기법들의 대부분이 잘 적용되기 때문인데,

매우 크고, 최소 수 테라바이트 데이터셋인 빅데이터 분석에도 활용되고 있다.


I 4140

표 2-1 빅데이터 활용에 따른 분석 방법의 변화

분류 현재(AS-IS) 융합지식기반(TO-BE)

활용변화

데이터개방 웹기반 인터페이스 원본/분석/가시화 3계층

이슈접근 후집계/원인 파악하는 사후대책반 실시간 이슈 탐지를 통한 선대응적 기획반

활용형태 부처별 수직적 활용 범부처/민간 수평적 분석

주체 업무 운영담당자 분석, 기획 담당자

분석변화

분석대상 정형화된 DB 데이터정형데이터 + SNS, 질문 등의 비정형 데이터

규모 기가∼테라바이트급 페타∼제타 바이트급

분석범위 단일 저장소(Silo) 다중 저장소

적용시간 일괄(batch) 처리 인타임 처리

데이터 저장 후 분석 흐름(on-the-fly) 분석

※ 출처 : 국가정보화전략위원회(2011), 빅데이터를 활용한 스마트 정부 구현(안)

출처: 한국정보화진흥원(2013) (재인용)76)

기반으로 하는 마이닝(mining)77) 기법들78)표 2-2 데이터를 기반으로 하는 마이닝(mining)78) 기법들79)

구 분 내 용

데이터 마이닝(Data Mining)

• 대용량의 데이터, 데이터베이스 등에서 감춰진 지식, 기대하지 못했던 경향, 새로운 규칙 등의 유용한 정보를 발견하는 과정

• 데이터 마이닝을 통해 정보의 연관성(순차 패턴, 유사성 등)을 파악함으로써 가치 있는 정보를 만들어 의사결정에 적용

텍스트 마이닝(Text Mining)

• 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미 있는 정보를 찾아내는 마이닝 기법

• 텍스트 마이닝은 사람들이 말하는 언어를 이해할 수 있는 자연언어처리(Natural Language Processing) 기술에 기반함

웹 마이닝(Web Mining)

•인터넷상에서 수집된 정보를 데이터 마이닝 방법으로 분석 통합하는 기법• 웹 마이닝은 콘텐츠 마이닝(웹 검색, 수집 데이터), 구조 마이닝(웹 사이트

구조), 활용 마이닝(사용자 이용형태) 등으로 세분화

소셜 분석,소셜 마이닝

(Social Mining)

• 소셜 미디어에 올라오는 글과 사용자를 분석해 소비자의 흐름이나 패턴 등을 분석하고, 판매나 홍보에 적용

• 마케팅 분야뿐만 아니라 사회의 흐름과 트렌드, 여론변화 추이를 읽어내는 소셜 미디어 시대의 새로운 마이닝 기법

76) 한국정보화진흥원, 2013.2. “새로운 미래를 여는 빅데이터 시대”

77) 마이닝(mining)이란 광산에서 광물을 캐낸다는 의미로, 디지털 시대에는 대규모로 축적된 데이터(광산)에서

의사결정이나 미래를 전망할 수 있는 유용한 정보(광물)를 추출한다는 의미로 응용.

78) 현실 마이닝(reality mining)은 2008년도 미국 MIT가 발행한 테크놀로지 리뷰에 10대 유망기술 중 하나로

선정되었으며(10 Emerging Technologies 2008), MIT 미디어랩의 프로젝트로 현실 마이닝 연구 (reality.media.mit.

edu)가 수행됨. 2009년 다보스포럼에서도‘현실 마이닝’이라는 용어가 언급된바 있음.



구 분 내 용

현실 마이닝3)

(Reality Mining)

• 사람들의 행동패턴을 예측하기 위해 사회적 행동과 관련된 정보를 기기(휴대폰, GPS 등)를 통해 얻고 분석하는 기법

• 휴대폰 등 모바일 기기들을 통해 현실에서 발생하는 정보를 기반으로 인간 관계와 행동 양태 등을 추론


기업들은 수많은 고객 업무 거래 데이터를 활용하여 발 빠른 의사결정, 미

래 수요예측, 경영 성과관리에 기여하는 BI전략 도입을 추진하였고, BI는 의

사결정에 필요한 데이터를 수집, 저장, 처리, 분석하는 일련의 기술과 응용시

스템을 말하는데, 빅데이터 애널리틱스도 이러한 일련의 과정을 거치게 된다.

그림 2-3 데이터의 과거-현재-미래

저장 검색 관리 공유 분석 추론

데이터베이스 검색엔진 KMS Web2.0 빅데이터 상황인식

축적 활용 확산 및 공유 가치창출

※ 출처 : 정지선(2011), ‘新가치창출 엔진, 빅데이터의 새로운 가능성과 대응 전략’


기업의 빅데이터 활용 기술의 변화81)

기업의 의사결정에 유용한 정보를 찾아내는 BI는 분석 기능이 강화된 BDA

로 진화 중에 있다. BI는 신속하고 정확한 비즈니스 의사결정을 위해 사용하

는 데이터의 접근, 수집, 보관, 분석 등의 애플리케이션과 기술의 집합인데82),

최근 BI에서 BDA로 진화하면서83) 데이터의 생성부터 폐기까지 전사적인 범위




82) http://artjang.com/32

83) 데이터넷,‘ 급부상하는‘비즈니스분석’, 더넓고깊은통찰력필요‘, 2011. 2.


I 4342

에서 기업의 미래를 예측하게 된다. BI가 OLAP 툴이라고 한다면 BDA는 BI

와 ETL, 데이터통합품질관리(Data Integration/Data Quality; DI/DQ), 마

스터 정보관리(Master Data Management; MDM), 분석 예측 최적화 기술

이 통합된 것이라 할 수 있다.

그림 2-4 BI에서 BDA로의 진화 과정

출처: 데이터넷(2011)84)

BI와 BDA 모두 데이터를 분석하여 사업에 활용한다는 점은 공통되므로 BI

의 연장선상으로 BDA를 볼 수 있으나, BI에 비하여 BDA는 데이터의 종류를

한정하지 않고, 수집 가능한 다양한 데이터를 활용하며 탐색적 특색이 강하며

85), 또한 기업의 전사 관리나 비즈니스 영역을 넘어서 사회적 현상 분석에 활

용되어 새로운 창출의 무한한 가능성이 존재한다. 최근에는 기업 관심이 내부

고객정보 분석에서 SNS 분석으로 확대되면서 BA에 SNS 분석을 포함해가는

추세로 발전되고 있다.

84) 데이터넷, ‘급부상하는 ”비즈니스분석“, 더 넓고 깊은 통찰력 필요‘, 2011. 2.

85) 노무라연구소(2012),‘ 빅데이터시대도래’



표 2-3 데이터 관점에서 전통적인 BI와 빅데이터의 차이점

구분 전통적인 BI 빅데이터

데이터 원천 - 기업 내부 시스템 : OLPT(ERP, SCM 등)- 기업 내/외부 시스템 : 마케팅 시스템,

SNS, 센서 데이터, 스마�

Documents

빅데이터 기반의 산업시장 정보분석gift.kisti.re.kr/announce/analysis-report/2014/miriran_14037.pdf · 산업시장 정보분석 ... 고객 접점, 모바일 미디어와