1인미디어를위한 자동하이라이트알고리즘 · 1. 배경 2. 문제제기 3....

1인 미디어를 위한자동 하이라이트 알고리즘

을 향해..

홍지민 곽현석

발표자 : 홍지민

1. 배경

2. 문제 제기

3. 데이터 전처리 및 Labeling 기준

4. 모델링

5. 성능 및 기대효과

6. 한계점

Contents

배경

공중파 TV채널 에서도 활용 되는 1인스트리머 컨텐츠

스트리머 & 크리에이터 전성시대

배경

문제 제기

• 축구, 야구 중계 등

전통적인 컨텐츠의

하이라이트 편집

배경

동영상 하이라이트 편집하는데

5분당 약 5만원 1분 추가될 때 마다 약 +5천원 ~ 1만원

문제 제기

하지만 수입이 없는 스트리머들은 어떻게해야할까?

문제 제기

하이라이트를 예측해보자!

데이터 수집 및 Labeling 기준

데이터 선정의 어려움..

1인 스트리머의 가장 재미있는 부분(하이라이트)를 어떻게 판단하나?

현실적으로 Labeling이 불가 하므로 하이라이트라고 공식적으로 편집해 놓은 영상을

토대로 Labeling을 하자!

데이터 선정 : 롤 챔피언스 리그 코리아 경기

데이터 선정

Train set ( Past )

Dev set (Relatively Recent) Test set (Most Recent)

파이썬 Selenium 패키지

유저가 채팅을 한 시간, ID , 채팅을 Table 형식으로 저장

Labeling :

네이버 e-스포츠에서 선정한

하이라이트 기준으로 Labeling

정말 많이 고심했던 부분!

네이버 하이라이트 전체

이벤트 발생 후 <채택>

이벤트 발생 시점초단위로 예측하기!

모델링

1개의 동영상 당 평균 6시간

하이라이트인 시간대 : 12 % (약 50분) (Positive)

하이라이트가 아닌 시간대 : 88% (약 5시간 이상) (Negative)-> Imbalanced Data Problem..

편중된 데이터의 Positive Class 인지 아닌지 평가를 해야하기에F1_score를 평가지표로 진행!

Binary Classification!

해당 시간대의 채팅 로그 개수

해당 시간대 주변의 채팅로그 개수 합산

+ 지수평활법, 이동 평균법, 형용사 개수, “ㅋ,ㅎ” 개수 ..등등 다양한 피쳐로 모델링

이후 BI - LSTM 모델로 진행

Time step이 너무 길어 모델

자체에 학습이 안된다!

(6시간 * 60분 * 60초)

빈도 기반의 모델링

생성해낸 피쳐로 Logistic , SVM, Random - Forest 적용

최대

F1 score = 20%.. (in Dev set)

애초에 Data가 imbalance 했기에 생긴 문제가 아닐까 싶습니다.

빈도 기반의 모델링

유저들이 쓴 채팅 단위로 Classification 해보자!

텍스트 기반 모델링

1개의 동영상 당 평균 6시간

하이라이트인 시간대에 채팅 : 22 % (Positive)

하이라이트가 아닌 시간대의 채팅: 78% (약 5시간 이상) (Negative)-> 여전히 Imbalanced Data Problem..

F1_score를 평가지표로 진행!

Binary Classification!

Tokenize문제.. 아무래도 채팅 기록이다 보니 비속어, 은어,오타 남발로 인해

Token이 제대로 형성이 안되는 문제가 발생

Word2vec 결과 Embedding 되는 단어가 60%가 채 안되는 문제 발생

음절 단위로 Tokenize 해보자!

예시 : [ “ 갓트록스 ” ] -> ‘[“갓”, “트”, “록“, “스“]

텍스트 기반의 모델링

(by Yoon kim 2014)

INPUT[“갓”,“트”,”록”,”스”]

“갓”

“트”

“록”

“스”

- MAX_SEQ_LENGTH : 4- EMBED_SIZE : 3 - Filter_sizes = [2, 3, 4] 한꺼번에고려할단어갯수- Out_Chs = 10 - Kernel_size = 3 (=word2vec dim)

# ofchannel

- MAX_SEQ_LENGTH : 4- EMBED_SIZE : 3 - Filter_sizes = [2, 3, 4] - Out_Chs = 10 - Kernel_size = 3 (=word2vec dim)

# ofchannel

Ex) filter_sizes = 2 (token을두개씩합성곱진행)

# ofchannel

Output vector 1

# ofchannel

Output vector 1

Output vector 2

Output vector 10

Concat

Concat Dropout

Sigmoid (Binary Classification)

성능

최종 스코어

58% (F1_Score)

다른 모델보다 가장 성능이 좋았다..

성능 및 기대효과

실제 적용된 동영상의 플롯

성능 및 기대 효과

스트림 서비스 제공자 입장:

채팅 로그를 통해 자동으로 하이라이트를 생성하이라이트 편집을 위해 돈을 쓸수 없는 초기 스트리머에게 유인책이 가능새로운 스트리머로의 유입 가능성

영상 편집자 입장:하이라이트 편집을 위해 전체 영상을 보고 편집하는 수고로움이 덜어짐더 높은 퀄리티의 영상 편집 및 디자인을 기대할 수 있음.

기대 효과

한계점

• 실제 개인 게임 스트리머에 적용해보니.. 이런 결과가 나왔다.. 아직 갈길이 멀구나

• 스트림 서비스가 어떤 카테고리냐에 따라 감탄사나 단어가 많이 다를 것이라예상함. ..> 먹방 뷰티 콘텐츠 등등

• 시계열적인 피쳐를 어떻게 더 활용 했으면 좋은 결과가 나오지 않았을까..?

한계점

감사합니다!

1인미디어를위한 자동하이라이트알고리즘 · 1. 배경 2. 문제제기 3....

Documents

[분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

학사관리 시스템 구축을 위한 데이터베이스 모델링

파트1 모델링, 컴퓨터와오차분석 1.1 개요 1.2 파트의구성neslab.daegu.ac.kr/lec/numanalysis-doc/ppt/chap01.pdf · –2017-09-19 –1 파트1 모델링, 컴퓨터와오차분석

서울시 링크드 데이터 서비스 사례 소개-모델링

IR Modeling(검색 시스템의 모델링)

LAMMPS 기반 멀티스케일 모델링 · 2018. 10. 15. · LAMMPS 기반 멀티스케일 모델링 Prototype(MD + SRD) 개발 보고서 일 자: 2014년 11월 20일 부 서: 슈퍼컴퓨팅기술개발실

[1] Pro-ENGINEER 기초 개념 특징형상기반 모델링

영산강 하구역 복합 시나리오별 모델링 결과 설명

온톨로지 모델링 및 URI 관리 방법

chapter 02. 데이터 모델링

초음속 항공기용 저바이패스 터보팬엔진 성능 모델링 The ... · Fig. 4 F100-PW-229 Engine Cutway 을 모델링 하기 위해 F100-PW-229 엔진을 적용 하였다

한의학 온톨로지 모델링

Gaming on AWS - 3. DynamoDB 모델링 및 Streams 활용법

추론기술팀 : 신경망 기반 개인화 추론기술 및 사용자 모델링 개발

KGC2014 게임 데이터 모델링

5 . 데이타 모델링

123D Design - 모델링 기초

『프로젝트 성패를 결정짓는 데이터 모델링 이야기』 - 미리보기

산업스파이범죄에대응한 민관협력방안에관한연구20%C0%CC%C1%A4%B4%F6.pdfⅠ. 서론(문제제기) 산업스파이로부터보호해야하는것은기업비밀1)이다.기업경영의기반이

기본적인 프로세스 모델링