Upload
yonggeun-song
View
381
Download
5
Embed Size (px)
Citation preview
작은 빅데이터 이야기12 장으로 보는 빅데이터의 빛과 그림자
뭐 ?
일반인의 생각
딱 걸렸어 너 아주 그냥 귀양헛소문이나 퍼뜨리고 말이야…
데이터를 모아
뭔지 모르겠지만 복잡한 분석을 하면
헛소문을 잡아 낼 수 있다
… 과연 그럴까 ?
그러니까
1. 트위터에 오고가는 많은 이야기가 있는데
2. 그 중에서 루머는 이런 특징이 있어서
3. 어떤 트윗이 루머에 속하는지 분류할 수 있다
아무리 생각해도 뭐가 이상해서 찾아 봤습니다
@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이 있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸 써야하는거 아 그런다고 내가 이걸 진짜 올릴지
아닌지도 모르겠는데 프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나
• 잊을만 하면 한 번씩 터져나온다 !
• 평소엔 잘 모르는 사람들끼리도 이야기를 돌린다 !
• 추측이나 감정적인 표현이 들어간다 !
@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이 있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸
써야하는거 아 그런다고 내가 이걸 진짜 올릴지 아닌지도 모르겠는데 프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나
@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이 있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸
써야하는거 아 그런다고 내가 이걸 진짜 올릴지 아닌지도 모르겠는데 프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나
@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이 있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸
써야하는거 아 그런다고 내가 이걸 진짜 올릴지 아닌지도 모르겠는데 프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이
있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸 써야하는거 아 그런다고 내가 이걸 진짜 올릴지 아닌지도 모르겠는데
프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이
있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸 써야하는거 아 그런다고 내가 이걸 진짜 올릴지 아닌지도 모르겠는데
프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이
있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸 써야하는거 아 그런다고 내가 이걸 진짜 올릴지 아닌지도 모르겠는데
프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이
있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸 써야하는거 아 그런다고 내가 이걸 진짜 올릴지 아닌지도 모르겠는데
프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이
있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸 써야하는거 아 그런다고 내가 이걸 진짜 올릴지 아닌지도 모르겠는데
프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나@ 소셜경험전략 이걸 트위터 타임라인 피드라고 해야되나 뭔가 내용이
있는 것처럼 만들기는 해야겠는데 귀찮네 지금 시간이 몇 신데 이걸 써야하는거 아 그런다고 내가 이걸 진짜 올릴지 아닌지도 모르겠는데
프로필 사진이라도 넣고 좀 공간이라도 줄일걸 그랬나
http://mia.kaist.ac.kr/publications/rumor/
샘플 데이터를 바탕으로 약 85~90% 가량의 분류 정확도…
Rumor ≃ 뜬소문≠ 헛소문 or 거짓말이건 Rumor 다 !
거짓말인가 ?
그건 이제부터 알아 봐야지
그런데 중요한게 하나 있다
뭐 임마 ?
확실한 사실은 ,
글쓴이는 글을 쓴 시점에
진위를 확인하지 못했다는 것 뿐 !
그 누가 알리오…
컴퓨터가 전지전능한 신도 아니고 ,
진실은 저 너머에
어린 아이는 사람의 성별구분을 어떻게 익혀갈까 ?
• 스타일 특징 : 옷 ( 치마 / 바지 ), 악세서리• 그 중에서도 특히 , 머리카락 길이
• 목소리 톤• 행동 특징• 소지품• 기타등등 기타등등…
비유하자면 이런 얘기다
확실히 구분하고 있습니다
치마를 입었지만 남자
프로필 사진은 여자이지만 남자
싸움 잘 하지만 여자
수 많은 경험을 쌓고 쌓아가다 보면 , 직관적으로 구분한다
… 이 생퀴…
인간의 뇌는 패턴 인식 , 분류를 워낙 잘 해서
애니웨이 ,
그러나 실수도 끊이지 않는다…
아 놔……
남성
여성
여성 측으로 구분했지만 , 실제론 남성
‘ 개체 속성’을 통해 집단을 ‘분류‘하는 방법 .
최근 빅데이터 기술의 한 축으로 주목받는ML(= 기계학습 , Machine Learning) 의 주요 테마 .
뭐 그냥 그렇다구요…
뭔 소린진 알겠는데 , 굳이 빅데이터일 필욘 없지 않나 ?
데이터 (= 경험 ) 가 많을수록 판단이 향상되고 ,
과거엔 엄두도 못 내던 대용량 데이터 처리를실전 배치할 수 있게 되었다는게 포인트 !
ㅅㅂ…
어렵기 때문이다 보통 , 관심이 없기 때문이다
왜 이런 오해가 생길까 ?
다음은 안드로메다 , 안드로메다까지 가는 특급 열차입니다
빅데이터 사세요
아저씨 , 빅데이터 하나만 사 주세요…
이거 완전 좋은데… 어떻게 보여 줄 수도 없고…
그리고 – 많이 팔아야 하기 때문이다
- 소셜경험전략
정리 !
원 논문은 , 빅데이터 분석을 통한 루머 ( 뜬소문 ) 분류 문제에서‘잊혀질만 하면 또 반복되는 특성’을 추가로 고려하면정확도를 향상시킬 수 있음을 확인했다 .
그렇다고 루머가 진실인지 거짓인지까지판단할 수 있다는건 아니다…
빅데이터는 어렵고 복잡하기 때문에 쉽게 오해받고 ,
… 때론 이해관계 때문에 과장해서 오해를 유도하기도 한다
그렇다고 무시하면……
정확히 이해하고 , 현실에 맞게 적용한다 !
ML 뿐만 아니라 , 오늘날 빅데이터 기술로 , 종전엔 불가능했던 분석 , 해석이 가능해졌다 . 그렇다고 SF 를 만들면 곤란하다…
첨부 이미지 링크2 페이지 http://mlbpark.donga.com/mbs/articleV.php?mbsC=bullpen&mbsIdx=3249562&cpage=&mbsW=&select=&opt=&keyword=
3 페이지http://igcs.khcu.ac.kr/board/view.jsp?m=50026&BRD_NO=738098http://jinto.pe.kr/2231
6페이지http://lunatree.tistory.com/36
7 페이지http://blog.daum.net/chefchef80/32http://blog.daum.net/arwda/3361
8페이지http://peterkoon.egloos.com/v/1208814http://isplus.joins.com/article/524/13595524.htmlhttp://531style.tistory.com/entry/netkama
9페이지http://marchbest.tistory.com/112
10 페이지http://www.sas.com/offices/asiapacific/korea/data-quality/index.htmlhttp://blog.naver.com/PostView.nhn?blogId=sosacha&logNo=120153708318
11 페이지http://acornpub.co.kr/blog/426http://uncyclopedia.kr/wiki/%EA%B0%9C%EA%B7%B8%EB%A7%8C%ED%99%94_%EB%B3%B4%EA%B8%B0_%EC%A2%8B%EC%9D%80_%EB%82%A0
12페이지http://luv4.us/archives/1824
사용에 문제가 있을 경우 연락 부탁드립니다 . Facebook/social.experience.strategy