26
빅데이터 기술전문가 7기 2조 (범죄 예상/추이/예방, 기반시설 환경과 범죄와의 상관관계) 멘토 : 심탁길 강사님 조원 : 김대훈(조장) 이상민 정용주 최기웅 노현주

기술7기 2조

Embed Size (px)

Citation preview

Page 1: 기술7기 2조

빅데이터 기술전문가 7기 2조

(범죄 예상/추이/예방, 기반시설 환경과 범죄와의 상관관계)

멘토 : 심탁길 강사님 조원 : 김대훈(조장) 이상민 정용주 최기웅 노현주

Page 2: 기술7기 2조

목차

1. 개요

2. 개발 일정별 진도

3. Eco system의 설치 및 설정

4. Node별 서비스 구성

5. 사용된 기술

6. 데이터 수집 - 테이블 목록

데이터 수집 - CCTV 위치정보

데이터 수집 - SNS (Twitter)

7. 주소 좌표 변환 작업

8. R을 사용한 시각화

9. 기타 - 서울시 정보보호 정책

부분별 기능 및 진행사항

향후 일정 및 기대효과

Page 3: 기술7기 2조

1.개요 (1) 설명 : 기반시설 환경(CCTV 및 경찰서의 위치)의 범죄 사각지대를 확인하여

시설 확충으로 범죄를 예방, 더 나아가 범죄자의 거주 위치와 범죄 트랜드를 분석하여 기반시설과 범죄율과의 상관관계를 발굴하고자 함

(2) 환경구성 : CDH5 (Cloudera) HDFS, Hive, HBase, Hue, Oozie, Solr, Spark ,Sqoop, ZooKeeper ,Impala,Key-Value Store Indexer, YARN (MR2 Included)

(3) 프로세스 :

R ggmap을 통한 시각화 or JSP를 통한 시각화

HIVE or HBASE

1 정보 수집

경찰서/지구대 정보

CCTV 위치 정보

인구수, 범죄율 정보 등

추가 자료 수집 필요

Yes

No

2

3

분석 및 시각화에 필요한 정보 수집

수집한 정보를 HIVE 또는 HBASE 에 저장

추가 수집이 필요하면 재 정보수집( )

R 의 ggmap 기능을 사용하여 지도상에

분석데이터의 시각화

또는

JSP 를 사용하여 CCTV위치를 시각화하여

범죄 사각지대 예측지역 발굴

1

2

3

1

Page 4: 기술7기 2조

2.개발 일정별 진도

단계 세부업무 6월 7월 8월

w1 w2 w3 w4 w5 w6 w7

기획/분석 분석/정의/기획

기술 적용 테스트

설계

데이터 모델링

공공/SNS 데이터 저장소 설계

분석 패턴 정의

구현

BigData eco system 설치

Hadoop 저장 / HIVE 구현

Hadoop 저장 데이터 추출

분석 진행

R 개발 , UI/UX 개발

테스트

단위/ 통합 테스트

안정화

산출물 작성, 발표 준비

마일스톤

: 완료 : 예정

중간보고 종료보고

Page 5: 기술7기 2조

- Cloudera CDH5의 설치 및 환경설정을 통한 시스템 안정화

3. Eco system의 설치 및 설정

환경설정을 통한 시스템 안정화

Page 6: 기술7기 2조

4.Node별 서비스 구성 - Cloudera CDH5의 노드별 설치된 서비스

Flume

Hbase Region Server

DataNode

Hive Gateway

Impala

Spark Worker

Yarn (Node Manager)

Zookeeper Server

Hbase Thrift Server

HDFS Secondary NameNode

Hbase Master Sqoop

Hue Server

HiveServer2

Solr Server

Oozie Server Spark

Yarn

Impala

CDH Service

CDH Service

Name Node Hive Metastore

Page 7: 기술7기 2조

5. 사용된 기술 - Cloudera CDH5를 기반으로 다음 기술을 사용

SEQ 기술명 내용

1 CDH5 (Cloudera) Eco system

2 HIVE 경찰서, 학교, CCTV 위치, 트위터 데이터 저장

3 FLUME 범죄 관련 키워드로 Twitter 글 데이터 수집

4 R (rhive , ggmap) 시각화 및 분석

5 JSP (naver 지도 API) 경찰서, 학교, CCTV 위치를 시각화

6 Informatica

Data Transformation PDF , HWP문서에서 TEXT를 추출하여 CSV로 변환

7 ㈜지오서비스 – 지오코더 주소변환 서비스

Page 8: 기술7기 2조

- HIVE에 생성되고 수집된 테이블

6.데이터수집 - 테이블 목록

SEQ 테이블명 테이블 한글명 파일(전체건수) 수집건수

1 tb_cctv_loc 서울시 cctv 위치 8586 1759

2 tb_police_loc 경찰서,지구,방범대 위치 3081 3081

3 tb_school_loc 학교,유치원 등 위치 21201 19642

4 tb_seoul_addr 서울 주소(지번,도로명) 589564 589564

5 tb_main_store 주요상권 위치 26738 0

6 tweets 트위터 (범죄 키워드) - -

Page 9: 기술7기 2조

- 서울시의 각 지역구별 CCTV 설치 현황

6.데이터수집 - 지역구별 CCTV 현황

SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수

1 강남구 821 10 용산구 423 19 종로구 269

2 은평구 572 11 마포구 372 20 동작구 250

3 중구 558 12 서초구 352 21 중랑구 196

4 영등포구 542 13 강서구 347 22 금천구 172

5 구로구 540 14 동대문구 337 23 서대문구 172

6 관악구 532 15 성북구 322 24 도봉구 162

7 광진구 519 16 강동구 319 25 송파구 108

8 양천구 489 17 노원구 293 26

9 강북구 447 18 성동구 293 27

Page 10: 기술7기 2조

- CCTV 시설 위치 정보의 수집

6.데이터수집 - CCTV 위치정보

1) 각 구청에 CCTV정보요청 2) PDF , HWP 파일로 정보 수집

3) XLS 파일로 변환

TEXT 추출 (PDF Parser)

Page 11: 기술7기 2조

TEXT 추출

- HWP, PDF 형식의 CCTV 시설 위치 파일을 TEXT로 추출하여 HIVE에 저장

인포메티카의 PDF Parser 를 사용하여 텍스트 추출

Parsing 로직

6.데이터수집 - CCTV 위치정보

Page 12: 기술7기 2조

- HIVE에 기반시설 위치 데이터 저장

6.데이터수집 - CCTV 위치정보

Page 13: 기술7기 2조

- 범죄 관련 keyword를 사용하여 SNS 글 데이터 수집

6.데이터 수집 - SNS (Twitter)

Page 14: 기술7기 2조

- HIVE에 Twitter 데이터를 저장

6.데이터 수집 - SNS (Twitter)

HDFS

HIVE에서 Query 조회

Page 15: 기술7기 2조

- 도로명 주소 전환 서비스와 지오코더(㈜지오서비스의 주소좌표 변환툴)을 사용 (비상업적인 용도에 한해서 자유롭게 사용할 수 있는 주소 좌표 변환 툴)

7.주소 좌표 변환 작업

< 지번 주소에서 도로명 주소로 전환 > < 좌표 변환 프로그램 >

Page 16: 기술7기 2조

- WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 )

8.시각화 - R(web)

Page 17: 기술7기 2조

- WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 )

8.시각화 - R(web)

Zoom-In

Page 18: 기술7기 2조

- WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 범죄에 취약한 학교/유치원을 발굴하기 위한 포인트 설정 ( 강남구 개포/대치 )

8.시각화 - R(web)

Zoom-In

Page 19: 기술7기 2조

- 학교/유치원의 위치와 CCTV/경찰서의 위치를 비교하여 사각지대 발굴 - 범죄에 상대적으로 취약한 학교/유치원 인근을 발굴

8.시각화 - R(web)

CCTV가 필요한 곳!!!

< CCTV / 경찰서 위치 > < 학교 / 유치원 위치 >

Page 20: 기술7기 2조

- R스튜디오 클라이언트로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시

8.시각화 - R(pc)

Page 21: 기술7기 2조

- Naver 지도API와 Jsp (ajax)를 사용하여 CCTV 위치를 지도에 표시.

8.시각화 - JSP

반경 50m

Page 22: 기술7기 2조

- 네이버 카페를 통한 원활한 정보 공유

9.기타 - 팀원간 정보 공유

Page 23: 기술7기 2조

9.기타 - 서울시 정보보호 정책

○ 정책적인면에서 CCTV 데이터 수집

1) 국가정보공유포털(www.data.go.kr) 에서 각 지자체의 cctv 데이터를 확보하려 하였으나 대부분 미공개인 상태

2) 국가정보공유포털에 cctv 위치공개 2회에 걸친 요청

답변) 1회 - 범죄목적으로 악용될 수 있으므로 불가

2회 - 각 지자체의 자산이라 불가

3) 서울시 보안정책 담당관에서 유선상 문의

답변) 범죄목적으로 악용될 수 있으므로 불가

4) CCTV의 개인정보 보호법에 대한 항목과 서울시 정보공개법 제9조 제1항 제2호에 대한 사항으로 대한민국 정보공개 포털 (http://wonmun.open.go.kr/) 에 정보 공유 요청 (서울시 홈페이지 정보공개관련 규정참고 )

하여 15일만에 서울시의 24개 지자체 CCTV 데이터 확보 하였으나 포맷이 일정치 않아 데이터 변환에 어려움이 있었음.

Page 24: 기술7기 2조

9.기타 - 서울시 정보보호 정책

5) 서울시 정보보호 관계법령

Page 25: 기술7기 2조

9.기타 - 부분별 기능 및 진행사항

○ 진행사항

1) 서울시 각 관할구청에서 방범용,어린이보호용 CCTV 위치 주소를 PDF,

HWP 형태로 받아 TXT로 Parsing하여 한글주소명을 위/경도 좌표

로 변환 (네이버 API)하여 HIVE에 저장.

2) 경찰서와 지구대 위치 정보를 HIVE에 저장.

3) Flume 으로 범죄 관련 SNS 글 수집.

4) R과 RHIVE를 연동하여 GGMAP으로 CCTV위치를 지도에 표시.

5) CCTV 사각지대 발굴(특정 학교 주변 이나 주요상권주변에 cctv 나 경찰서 부재를 발굴)

6) JSP로 CCTV 반경 50M 표시

Page 26: 기술7기 2조

9.기타 - 향후 일정 및 기대효과

○ 향후 기대 일정

1) 서울시의 구/동별 인구수 및 범죄율 데이터 수집

2) 지역구별 SNS 범죄 관련 글의 빈도율 분석

3) 경찰서,지구대,CCTV와 인구,범죄율의 상관관계 분석

4) D3.JS 와 twitter의 bootstrap을 사용한 시각화

결과 - 인구수,범죄율과 사회 안전 기반시설의 상관관계를 R의 GGMAP에

표시

○ 기대효과

1) 범죄 사각지대를 발굴하여 사회안전시설을 확충하도록 유도

2) 일반에게 공개하여 안전한 길로 보행하도록 유도

3) 범죄에 취약한 어린이 보호구역의 감시 강화 유도

- 결과적으로 지역의 안전성을 향상시켜 범죄율을 낮추고자 함