이원하
파이썬을 이용한 빅데이터 수집. 분석과 시각화
목 차
03SOCIAL NETWORK SERVICE
1
11DATA CRAWLING - API
2
17VISUALIZATOIN3
24DATA CRAWLING – CRAWLER Example4
파이썬을이용한빅데이터수집, 분석과시각화
1 SOCIAL NETWORK SERVICESNS
1
파이썬을 이용한 빅데이터 수집, 분석과 시각화
BIG DATA
4
그림출처 https://app.secure.griffith.edu.au
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Social Network 사용 현황
5
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Social Data Flow
6
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Crawling & Mart DB
7
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Crawling 저작권
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Portal/SNS 별 Crawling 방법 및 한계
9
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Crawling 예
10
“코성형포럼제목분석”
0
2000
4000
6000
8000
10000
12000
코제발 눈 더
지지
님들
절개 글
주차
한쪽
이상
선생님
나나 뭘
평생
치료
일이
잡고 삼
무턱
제일 혹
숨쉬기
계획
반창고
매드
자주
캡슐
어떄
무엇
경과
기준
단어빈도분석
파이썬을이용한빅데이터수집, 분석과시각화
1 DATA CRAWLINGAPI
2
파이썬을 이용한 빅데이터 수집, 분석과 시각화
SNS API?
SNS
SASS
12
파이썬을 이용한 빅데이터 수집, 분석과 시각화
FACEBOOK – https://develpoers.facebook.com
13
파이썬을 이용한 빅데이터 수집, 분석과 시각화
TWITTER - https://dev.twitter.com
14
파이썬을 이용한 빅데이터 수집, 분석과 시각화
NAVER - https://developer.naver.com
15
파이썬을 이용한 빅데이터 수집, 분석과 시각화
공공데이터포털 - http://www.data.go.kr
16
파이썬을이용한빅데이터수집, 분석과시각화
1VISUALIZATION
3
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Matplotlib – 그래프 Package
18
JTBC뉴스페이스북에서 2016-10-01~2017-03-12간사용한다빈도명사
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Matplotlib – 그래프 Package
19
2011년 ~ 2016년 입국수 대비 경복궁 관광객 입장객수 상관 분석
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Heatmap – 그래프 Package
20
2011년 ~ 2016년 중국인 입국수
파이썬을 이용한 빅데이터 수집, 분석과 시각화
WordCloud – 다빈도 명사 시각화 Package
21
다빈도 명사 분석을 통한 워드 크라우드
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Folium – 지도 시각화 Package
국내 5대 프랜차이즈 치킨 매장 분포도
파이썬을 이용한 빅데이터 수집, 분석과 시각화
Infographic : 국내 5대 치킨 매장 분석
치킨매장 분포도 인구 만명당 치킨집 수 면적대비 치킨집 수
파이썬을이용한빅데이터수집, 분석과시각화
1 DATA CRAWLINGCRAWLER : EXAMPLE
5
파이썬을 이용한 빅데이터 수집, 분석과 시각화
BeautifulSoup4 – HTML 분석(Parsing) 패키지
>>> import urllib.request
>>> from bs4 import BeautifulSoup
>>> html = urllib.request.urlopen('http://movie.naver.com/movie/sdb/rank/rmovie.nhn')
>>> soup = BeautifulSoup(html, 'html.parser')
>>> print(soup.prettify())
<!DOCTYPE html>
<html>
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type">
<meta content="IE=edge" http-equiv="X-UA-Compatible">
<meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="me2:image"/>
<meta content="네이버영화 " property="me2:post_tag"/>
<meta content="네이버영화" property="me2:category1"/>
....(이하중략)
<!-- //Footer -->
</div>
</body>
</html>
파이썬을 이용한 빅데이터 수집, 분석과 시각화
BeautifulSoup4 – HTML 분석(Parsing) 패키지
<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.nhn?code=135874" title="스파이더맨: 홈커밍">스파이더맨: 홈커밍</a>
</div>
</td>
파이썬을 이용한 빅데이터 수집, 분석과 시각화
BeautifulSoup4 – HTML 분석(Parsing) 패키지
>>> tags = soup.findAll('div', attrs={'class':'tit3'})
>>> tags
[<div class="tit3">
<a href="/movie/bi/mi/basic.nhn?code=135874" title="스파이더맨: 홈커밍">스파이더맨: 홈커밍</a>
</div>, <div class="tit3">
<a href="/movie/bi/mi/basic.nhn?code=146480" title="덩케르크">덩케르크</a>
</div>, <div class="tit3">
<a href="/movie/bi/mi/basic.nhn?code=76309" title="플립">플립</a>
… (이하중략)
<a href="/movie/bi/mi/basic.nhn?code=149048" title="100미터">100미터</a>
</div>]
>>> for tag in tags:
print(tag.a)
<a href="/movie/bi/mi/basic.nhn?code=135874" title="스파이더맨: 홈커밍">스파이더맨: 홈커밍</a>
… (이하중략)
>>> for tag in tags:
print(tag.a.text)
스파이더맨: 홈커밍
덩케르크
…(이하중략)