Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Social Media와 Unstructured Data를 활용한 Text Analytics 사례
구방본 | 부장
SAS Korea
NYSE:
1 TB of new trade data per
day
Facebook:
20+ TB compressed per day.
10 billion photos ~ 2.5 PB of
data
and growth is accelerating!
Quiz
Big Data & Unstructured data
Structured Data
Semi-Structured Data
Image/Multi Media Data
Unstructured Data
in E-mail
in Web
in SNS
in DB
in Doc
=> Text Data
Unstructured Data
Unstructured 데이터 분석 ?
Unstructured Data
HeonSh????: 사람 많지는 안았나요? RT @lh???: 하루
휴가라 우리 가족 롯데월 드를 다녀왔습니다. 삼바 리오
축제 엄청 좋았습니다. 삼성카드 자유이용권 50%
할인, 롯데카드 입장권 무료. 15,000원에 우리 식구 입...
http://dw.am/L4qWi
Refined Information
People
Contents
Relation
관심사항, 성향, 취향, 영향력, 위치, 연령대,
네트웍망 내 위치
관심 주제(브랜드, 서비스, 상품, 품질, …), 긍/
부정, 매체, 작성일
소속 그룹, 구성원, 그룹 성향, 관계 강도
Search KM, 검색
수집
분류
분석 (정성/정량)
텍스트 분석 고도화 사례
Text 분석 수준
1단계-VOC
- 유의어 기반 분류
- 긍/부정어 사전 기반
2단계-VOC
- 대분류만 자동분류
- 현업 수작업 유도
- 세부 제품레벨 집계
3단계-VOC
- Global Language
- 대/중/소 자동 분류
- 리스크 스코어링
- Hot Issue Alert
Time 2005 2008 2012
A사의 TA 고도화
Precision
+ 고급 분석/ Global Lang
Unstructured data 분석의 Pain
Precision
Insight
Globalization
SAS Text Analytics Framework
Crawler
Data Quality
Media Portal
Conversation Center
Media Workbench
Business Analytics
Social Network Analysis
Data Mining
Text Summarization
Sentiment Analysis
Text Mining Content Categorization
Text Analysis for Unstructured Data
Business Analysis for Structured Data
Business Analysis for Social Network
Data
Integration
30 L
anguage
Text Analytics Case Study
Mobile, High-Tech
Automobile
Election
Mobile – Hot Risk Issue Alert
신상품 출시 후 품질 조기 경보
수많은 VOC 중 Hot Risk 도출
Top 20 Risk Alert
리스크 확산 방지
제품 및 회사에 대한 이미지 지속
TA 마이닝
Automobile – Hot Issue/ 리콜 Alert
신차 출시 후 품질 모니터링
리스크 확산 조기 방지
“XXX 자동차 사상 최대의 리콜 사태로 창사 이래 가장 큰 위기 직면” – 니혼게이자이신문, 2010 “리콜사태 이전 기업 이미지가 100이었다면 리콜 후 50으로 떨어졌다” – 세계일보, 2010
리콜 이슈 조기 경보
품질 조기 경보 체제
Case. 선거 – SNS분석을 통한 후보자 강/약점 분석
투표 2일전
당시 매스컴 및 타 분석 업체에서 온라인상
두 후보의 지지도가 박빙으로 가고 있다고 함
그러나 SAS의 분석결과는
확연하게 드러남
트위터 총량 비교 일평균 나: 17340건 박: 19230건
박근혜 나경원 지지 표명
TV 토론 시작
박원순 천안함 발언
100분 토론 신지호
음주방송 논란
단일 후보 확정 서울 시장 후보 등록,
재산 신고
KBS1 후보토론
박원순 학력 위조
의혹 제기
박원순 병역 의혹 제기 MBC 100분 토론
공식 선거운동 시작
나경원 사학재단 이사 재임,
정치 후원금 의혹
나경원 가짜 트윗 논란
중앙선거관리위원회
SNS 가이드라인 발표;
나경원 2캐럿 다이아반지
재산 허위 신고,
부친 학교 회계장부 논란
나경원 VVIP 피부과 논란
나경원 딸 편지 가짜 해명
안철수 박원순 지지
공식 선언
후보별 지지 트위터리안 추이분석 일평균 나: 1209명 박: 2377명
후보별 안티 트위터리안 추이분석 일평균 나: 818명 박: 411명
유권자 관심영역 호감도 분석
선거 - SNS분석을 통한 후보자 분석 – 동아일보 11.10.27
총선 공천 트위터 여론 분석 – 조선일보 12.3.13
구분 방법 해석
실제 현상 – 사안에 대한 긍정적인 글을 찾을래야 찾기 힘들 정도로 부정적 글이 많음
사람이 직접 육안으로 읽어서 내용 파악
“부정적인 글이 훨씬 많네?” 라는 느낌
검색 기반의 텍스트 분석 SW
단어 기반으로 내용 파악 (“민주당”과 “좋다”가 등장하면 민주당에 대한 긍정으로 해석)
긍정 46%, 부정 49%로 판정
SAS – 문장의 문법과 의미 기반의 텍스트 분석
주어와 서술어 관계, 이중 부정 표현 등을 고려하여 내용 파악
긍정 13%, 부정 87%로 판정
Why SAS Text Analytics
솔루션 선정시 고려사항
텍스트 분류 정확도
- 자동 분류의 정확도 - 분류 체계 4 Level 이상
Insight & 분석 고도화
- 세부 원인 분석 - 고급 분석 확장
사용자 편의성
- 자연어 처리 룰 UI - 동의어 연관어 - 불용어 처리
타 부서로 확산
- 툴/패키지 형태 - 템플릿 공유
84%, 92.5%, 84.5%
SAS Text Analytics in SAS Analytics
SAS® Text Analytics
Information
Organization and
Access
SAS Enterprise
Content
Categorization
SAS Text
Summarization
Predictive Modeling,
Discover Trends and
Patterns
SAS
Sentiment
Analysis
SAS Text
Miner
SAS® Analytics
Text Analytics
Statistics
Model Management
Quality Improvement
Operations Research
Forecasting & Econometrics
Data Visualization
Data Mining
텍스트 분석 엔진의 신뢰도
집 근처에 있는 대리점 판매 점원이 삼성전자 3D TV 를 보여 주면서 정말 자세히 설명을 해주더라구요~ 처음 본 3D TV라 그런지 정말 실감나고 신기했어요, 그런데 가격 은 착하지 않더라구요.
매칭 방법
기존 SAS
결과 예시
• 기타로 분류(긍부정 빈도 유사) • 자세한 분류 불가능 • 삼성전자, TV, 판매원, 가격 무엇이 긍부정 인지 분석 어려움 (단어 매칭의 한계)
• 삼성전자 대리점 접근 편의성 • 판매원에 대한 매우 만족 • 제품에 대한 만족 • 가격에 대한 불만
• 단어 및 시멘틱 매칭 • 유의어, 긍/부정 사전 • 긍/부정 빈도수
문장예시
• 언어 패턴 매칭(Linguistic) • 주부 + 부사부 + 술부 • 문장 문맥 의미에 따른 분류 • 표현 논리구조 연산
Case: 한글 긍정의 여러 표현
- 실내 디자인이 좋다 O - 실내 디자인이 나쁘지 않다 O - 실내 디자인이 좋지 않다 X
언어별 다양한 의미 표현을 정확하게 분류
Case: 소나타 실내 디자인 긍정의 여러 가지 표현 (영문)
- Sonata’s interior design is good O - Sonata’s interior design is not bad O - I like Sonata’s interior design O - I don’t like Sonata’s interior design X - I don’t think Sonata’s interior design is good X
부정어 컨셉
불만 컨셉
의견 컨셉
만족 컨셉
위 Case의 표현 패턴에 대한 룰
Case: 소나타 실내 디자인 긍정의 여러 가지 표현 (영문)
- Sonata’s interior design is good O - Sonata’s interior design is not bad O - I like Sonata’s interior design O - I don’t like Sonata’s interior design X - I don’t think Sonata’s interior design is good X
Case: 한글 긍정의 여러 표현
- 실내 디자인이 좋다 O - 실내 디자인이 나쁘지 않다 O - 실내 디자인이 좋지 않다 X
SAS TA엔진 분석결과 정확도는? – 타사 사례
Language Support
English
German
Spanish
Italian
French
Portuguese
Dutch
Greek
Swedish
Finnish
Norwegian
Danish
Russian
Czech
Slovak
Polish
Hungarian
Romanian
Turkish
Arabic
Farsi (in development)
Hebrew
Chinese
Japanese
Korean
Thai
Indonesian
Vietnamese
Bulgarian
More languages under development
No third party licensing.
29 Copyright © 2010, SAS Institute Inc. All rights reserved.
Summary
SAS Text Analytics Framework
웹포탈/대시보드
Data Source
데이터 통합
분석 영역 사용자 영역
Business Analytics
Network Analysis
Data Mining
Content Categorization
Sentiment Analysis
Text Miner Text Summarization
Unstructured Data Analysis
Crawler
(IR Studio)
Structured Data Analysis
Network Analysis
Data Integration 분석 보고서
예측/시뮬레이션 분석 30 Global Languages Support
1. Precision
2. 통합 분석(TA+마이닝)
3. Global Language Support
구방본 [email protected] 02-2191-7122 SAS Korea