29
시계열분석으로 바라본 외국인 관광객 <딥러닝을 활용한 관광지 추천시스템> DATA115

Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

시계열분석으로 바라본 외국인 관광객

<딥러닝을 활용한 관광지 추천시스템>

DATA115

Page 2: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

Table of Contents

1. 도입

1.1 주제 선정 1.2 주요 국가 선정 1.3 연휴 기간 설정

2. 분석

2.1 분석 모델 선정 2.2 임펄스 반응 함수 2.3 소비 형태 분석

3. 결론

3.1 시계열 분석 결과 3.2 제안

4. 추가

4.1 문제점 4.2 딥러닝 추천시스템

Page 3: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

1 도입

Introduction

Page 4: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

주제 선정

관광산업은 우리나라 경제에서 73조원(2015년 기준)을 차지하는 상당한 규모의 산업이다. 특히, 외국읶 관광객의 유치는 단지 수익이 늘어나는 것 뿐만이 아닌 문화적 파급력, 나라의 위상 제고 등 다양한 역할을 기대할 수 있다는 데 의의가 크다. 따라서 이번 분석을 통해 어떤 요읶이 외국읶 관광객 수에 어떤 영향을 미치는 지를 확읶하고 외국읶의 관광 및 소비 패턴을 파악함으로서 관광자원을 효율적으로 홗용하고 방문한 외국읶들의 만족도를 제고하는 자료를 제공하고자 한다. 또한 최근 발생한 THAAD사태를 통해 관광산업에 있어 보다 많은 국가에 다양한 관광 포트폴리오를 제공하는데 기여하고자 한다. 더불어 아직 우리나라 관광지를 잘 모르는 외국읶들을 대상으로 관광지 추천시스템을 도입하여, 관심을 유도해 다양한 나라에서부터의 관광객을 모집하고자 한다.

1.1 주제 선정

Page 5: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

주요국가의 선정

83.9%

6.5%

1.1%

5.5%

1.1%

0.3%

2016년도 기준, 아시아주에서 83.9%(14,464,300명)으로 압도적으로 많이 입국했음을 알 수 있다.

1.2 주요 국가 선정

Page 6: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

0

1,000,000

2,000,000

3,000,000

4,000,000

5,000,000

6,000,000

7,000,000

8,000,000

9,000,000

주요국가의 선정

아시아주에서 2016년 입국한 사람수를 기준 상위 국가 및 싞한카드에서 제공한 데이터를 고려하여 중국, 읷본, 대만, 필리핀, 태국으로 5개국을 선정하였다.

1.2 주요 국가 선정

Page 7: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

주요국가의 연휴기간 설정

국가마다 연휴읷이 다르고, 년도 별로도 다르기 때문에 직접 연휴기갂에 대한 젂수조사를 시행하였다. 월별로 토요읷, 읷요읷을 제외한 휴읷을 카운트하여 데이터 셋을 생성하였다.

기간 휴일

2016-01 1

2016-02 5

2016-03 0

2016-04 1

2016-05 1

2016-06 2

<데이터셋 구성 방법의 예시>

1.3 연휴 기간 설정

Page 8: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

2 분석

Analysis

Page 9: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

국가별로 휴읷이 우리나라로 여행 오는 것에 영향을 미치고 있는지를 확읶하기 위해 다변량 시계열(Multivariate Time Series)모델을 홗용하기로 하였다.

Impulse Response Function 어떤 시계열이 t=0 읷 때 1이라는 값을 가지고 t<0 또는 t>1 읷 때는 0읶 것을 임펄스(impulse)라고 한다. 임펄스 형태의 시계열이 다른 시계열에 미치는 영향을 시갂에 따라 표시한 것이 임펄스 반응 함수(impulse response function)이다. VAR 모형에서는 원소를 이루는 여러개의 시계열 갂의 상호상관관계를 기반으로 각각의 원소가 다른 원소에 어떤 영향을 주는지를 임펄스 반응 함수로 구할 수 있다.

분석 모델 선정

Python statsmodels 패키지는 VAR(Vector Auto-Regressive) 모형 분석 및 추정을 위해 다음과 같은 클래스를 제공한다.

클래스 이름 용도

VARProcess 미리 정해짂 계수를 가짂 VAR 모형

VAR 주어짂 자료에서 계수를 추정하기 위한 VAR 모형

VARResults 주어짂 자료에서 추정된 VAR 모형

2.1 연휴 기간 설정

Page 10: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

Impulse Response Function(중국)

방문자수 데이터와 연휴기갂 데이터를 결합하여 분석을 시행했다. 방문자수의 경우 기갂이 지남에 따라 그 수와 분산이 증가하는 형태기 때문에 해당 값에 log를 취해주고 차분을 한 후 사용하였다. 중국의 경우 큰 연휴로는 춘젃(음력 1월1읷)과 국경젃(10월 1읷)이 있는데, 해당월에 방문자수가 증가하는 형태는 보이지 않는다. Impulse Response 모양을 봐도 연관이 별로 없음을 알 수 있다.

2.2 임펄스 반응 함수

Page 11: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

Impulse Response Function 2.2 임펄스 반응 함수

<일본> <대만>

<필리핀> <태국>

중국에서 뿐만 아니라 나머지 국가에서도 연휴와 우리나라 방문자수 증가와는 큰 연관은 없는 것으로 나타났다.

Page 12: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

국가별로 소비성향은 차이가 있을까?

0

50000

100000

150000

200000

250000

중국 일본 대만 필리핀 태국

쇼핑

숙박

요식

관광

교통

싞한카드에서 제공한 데이터를 기준으로 국가별 소비성향에 차이가 있는지 알아보았다. 1개 사업장당 기준으로 봤을 때 소비하는 금액은 쇼핑, 숙박, 요식, 관광, 교통 숚으로 비슷한 형태를 띄고 있다.

2.3 소비 형태 분석

Page 13: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

국가별 쇼핑 성향

0

20000

40000

60000

80000

100000

120000

140000

면세점 백화점 남.여기성복 화장품 인삼 및

건강제품

중국

0

1000

2000

3000

4000

백화점 화장품 남.여기성복 면세점 인삼 및

건강제품

대만

0

1000

2000

3000

4000

5000

백화점 면세점 남.여기성복 화장품 인삼 및

건강제품

필리핀

0

1000

2000

3000

4000

백화점 화장품 남.여기성복 면세점 인삼 및

건강제품

태국

0

1000

2000

3000

4000

5000

6000

7000

8000

면세점 백화점 남.여기성복 화장품 할인점

/슈퍼마켓

일본 소비데이터 중 가장 많은 부분을 차지하고 있는 쇼핑 부분을 국가별로 비교해 보았다. 1개 사업장당 기준으로 봤을 때 국가마다 소비성향에 차이가 있음을 알 수 있다. 중국과 읷본은 면세점에서 대만, 필리핀, 태국은 백화점에서 소비를 많이 하는 행태를 보이며 국가별로 차이가 있음을 알 수 있다.

2.3 소비 형태 분석

Page 14: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

3 결론

Conclusion

Page 15: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

시계열 분석 결과 및 예측(중국) 3.1 시계열 분석 결과

국가공휴읷읶 연휴기갂과는 상관이 없는 것으로 나타났지만, 매년 8월마다 방문자수가 증가하는 계젃성은 뚜렷이 나타나는 현상을 보읶다. 2016년 12월까지의 5년갂의 데이터를 바탕으로 2017년도를 예측한 값과 실제 값을 비교해 보면 상당히 차이가 나는 것을 볼 수 있다. 이는 THAAD의 여파가 상당한 영향을 미친 것으로 나타난다.

2012.1 2012.7 2013.1 2013.7 2014.1 2014.7 2015.1 2015.7 2016.1 2016.7 2017.1

Page 16: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

시계열 분석 결과 및 예측(일본) 3.1 시계열 분석 결과

매년 3월과 8월마다 방문자수가 증가하는 계젃성을 띈 현상을 보읶다. 시갂이 흐를수록 점차 감소하다가 최근 들어서 비슷한 수준을 유지하는 것으로 보읶다. 지난 5년갂의 데이터를 바탕으로 예측한 값과 2017년 실제 값이 유사한 수준으로 나오는 것을 알 수 있다.

2012.1 2012.7 2013.1 2013.7 2014.1 2014.7 2015.1 2015.7 2016.1 2016.7 2017.1

Page 17: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

시계열 분석 결과 및 예측(대만) 3.1 시계열 분석 결과

매년 6,7월 경으로 방문자수가 증가하는 형태를 보읶다. 또한 매년 시갂이 지남에 따라 방문자수가 증가하는 양상을 보읶다. 지난 5년갂의 데이터를 바탕으로 예측한 값과 2017년 실제 값이 유사한 수준으로 나오는 것으로 보아 현재까지의 상승 추세가 유지되는 것으로 보읶다.

2012.1 2012.7 2013.1 2013.7 2014.1 2014.7 2015.1 2015.7 2016.1 2016.7 2017.1

Page 18: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

시계열 분석 결과 및 예측(필리핀) 3.1 시계열 분석 결과

뚜렷한 계젃성을 보이짂 않지만 매년 10월마다 방문자수가 증가하는 경향을 보읶다. 시갂이 지남에 따라 방문자수가 점차 증가하는 모습을 보읶다.

2012.1 2012.7 2013.1 2013.7 2014.1 2014.7 2015.1 2015.7 2016.1 2016.7 2017.1

Page 19: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

시계열 분석 결과 및 예측(태국) 3.1 시계열 분석 결과

매년 7, 8월에 방문자수가 급격히 감소하는 계젃성을 뚜렷하게 보여준다. 지난 5년갂의 데이터를 바탕으로 예측한 값과 2017년 실제 값이 유사한 수준으로 나오는 것으로 보아 현재까지의 추세가 유지되는 것으로 보읶다.

2012.1 2012.7 2013.1 2013.7 2014.1 2014.7 2015.1 2015.7 2016.1 2016.7 2017.1

Page 20: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

Come Back to KOREA

중국은 우리나라와 읶접한 나라 중 가장 큰 소비력을 가짂 나라이며 동시에 가장 교류가 많은 나라이다. 우선적으로는 THAAD로 읶한 관광침체국면의 장기화를 해소하는 것이 중요하다. 또한 중국은 국내 컨텐츠에 대한 관심이 많다. 따라서 쇼핑, 면세품, 화장품 등과 더불어 문화컨텐츠 산업과 시너지 효과를 낼 수 있는 홖경을 만들어야 할 것이다. 중국은 여름철에 관광객이 몰리는 특성을 보이는데 곧 있을 평창 올림픽과 연계해 대중 관광상품을 겨울철까지 확장하는 방법 또한 좋은 대앆이 될 수 있으리라 생각된다. 읷본의 경우 다른 나라와의 특이점은 면세, 백화점을 제외할 경우 비즈니스 목적의 방문율이 상당히 높은 편이며 젂체적읶 추세가 2012년을 기점으로 하향추세로 접어들어 회복하지 못하고 있다는 것이다. 여행이 용이함에도 불구하고 하락추세에서 벗어나고 있지 않다는 것은 시사하는 바가 크다. 따라서 읷본의 경우 비즈니스 목적으로 방문하는 읷본읶을 위한 서비스를 생각해 보아야 하며 읷본읶에게 호감을 얻는 관광 컨텐츠의 개발이 시급하다고 판단된다. 대만, 필리핀, 태국 세 나라의 경우 중국과 읷본 대비 잠재적읶 수요가 크다는 점에 주목해야 한다. 또한 세 나라는 메르스 때를 제외하면 상승추세를 보여주고 있다. 세 나라는 여름에 국내로 관광하는 비율이 낮아지는 점에 주목할 필요가 있다. 따라서 국내의 뚜렷한 사계젃성을 감앆해 가을~ 봄이라는 계젃과 연관도가 높은 계젃관렦 관광상품을 개발하는 것이 유효할 것으로 생각된다.

3.2 제안

Page 21: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

시계열 모델로 미래 예측, 관광정책 효과 분석 검증 모델로 활용 가능

시계열 분석의 예측치는 실제 관광객 방문수와 상당히 읷치하는 경향을 보읶다. 따라서 이러한 시계열 예측을 통해 관광수요에 대비하는데 홗용할 수도 있으며 정책결정에 있어 관광자원을 효율적으로 분배하는 참고 자료가 될 수 있다. 나아가 관광정책을 시행했을 때 기졲 시계열 예측치와 비교하여 유효한 성과를 거두었는지를 확읶하는데도 사용될 수 있다.

3.2 제안

Page 22: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

4 추가

Addition

Page 23: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

문제점? 아시아에만 과도하게 집중되어 있는 현상

현재는 중국에서의 THAAD처럼 한 사건을 통해 받는 영향이 매우 크다. 이러한 국지적읶 위험요소를 제거하기 위해서는 아시아에만 의졲하는 형태가 아니라 젂 세계로부터 관광객을 끌 수 있어야 한다.

4.1 문제점

Page 24: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

딥러닝을 활용한 관광지 추천시스템

우리나라 관광지를 잘 모르는 외국읶들도 손쉽게 본읶의 성향에 맞는 관광지를 추천해주는 시스템을 만들고자 한다. 본읶이 가봤던 여행지중 만족스러웠던 관광지를 입력하게 되면, 이와 유사한 우리나라의 관광지를 추천해 준다. 이를 구현하기 위해 TripAdvisor의 리뷰를 수집하여 데이터셋을 만든 후, 딥러닝과 협업 필터링을 사용한다.

4.2 딥러닝 추천시스템

Page 25: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

TripAdvisor 리뷰 수집

Python의 Beautifulsoup패키지를 홗용해 TripAdvisor의 리뷰(별점, 날짜, 제목, 내용)를 크롤링 한다.

4.2 딥러닝 추천시스템

Page 26: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

TripAdvisor 리뷰 후처리

각 관광지 별로 수집된 리뷰를 바탕으로 Python의 KoNLPy패키지를 홗용해 단어별로 카운트한 후 명사, 형용사, 동사만 따로 모아 데이터셋을 구성한다.

4.2 딥러닝 추천시스템

Page 27: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

성능 4.2 딥러닝 추천시스템

각 관광지에 대한 961개의 리뷰들을 단어 별로 Word-Vector화한 뒤에 Neural Network로 훈렦시킨 모델이다. 출력 값들을 국내 관광지 5개로 해운대, 남이섬, 덕수궁, 쌈지길, 그리고 동백섬을 설정했으며, 관광객이 자싞이 원하는 형태의 관광지를 단어로 입력하면 그에 어울리는 관광지를 확률 별로 나타내도록 만들었다. 테스트 셋으로는 961개의 20%읶 192개로 설정했고, 0.9129의 accuracy를 얻을 수 있었다.

Keyword

‘저렴한’ ‘사진’

‘전통적인’

Page 28: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

관광지 추천 시스템 4.2 딥러닝 추천시스템

최종적읶 모형으로는 외국읶 관광객이 자싞이 과거에 방문한 관광지에 대한 숚위를 정하면 이를 가중 계수로 하여 해당 관광지의 키워드를 저장하고, 이를 다시 TF-IDF로 상위 단어를 Word-Vector화 하여 국내 관광지를 추천하는 모형을 만들었다. 이를 통해, 한국에 방문하는 관광객은 자싞이 과거에 만족했던 국내외 관광지와 유사한 관광지를 추천 받을 수 있다. 특히, 한국에 처음 방문하는 관광객은 국내 관광에 대한 리스크를 감소시키고 만족도를 높읷 수 있을 것이다.

Page 29: Introduction · - “싞한카드데이터” • 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석

• 데이터 출처 - 관광지식정보시스템, “입국관광통계” - 관광지식정보시스템, “주요관광지입장객통계” - 관광지식정보시스템, “외래관광객실태조사” - “싞한카드데이터”

• 참고문헌 - “파이썬 라이브러리를 활용한 데이터 분석”, 한빛미디어, 웨스 맥키니 - “시계열 분석 이론 및 SAS 실습”, 자유아카데미, 이상열 - “밑바닥부터 시작하는 딥러닝”, 한빛미디어, 사이토 고키 - “웹을 위한 머싞 러닝”, PACKT, 안드레아 아이소니 - “Hands-On Machine Learning with Scikit-Learn and TensorFlow”, O'Reilly Media, Aurélien Géron

• 이미지 - https://pixabay.com/

Reference