18
Chapter 11. Recommender Systems Chapter 12. Overview of Text Data Analysis 서울시립대학교 데이터마이닝 연구실 최희원

Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

Chapter 11. Recommender Systems

Chapter 12. Overview of Text Data Analysis

서울시립대학교데이터마이닝 연구실

최희원

Page 2: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

CONTENTSChapter 11

• Content-based Recommendation

• Collaborative Filtering

Chapter 12

• Text vs. Non-text Data: Humans as Subjective Sensors

• Landscape of text mining tasks

Page 3: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

Chapter 11. Recommender system

Ø 검색

사용자가 입력한 키워드를 기준으로 그것과 관련성 높은 문서를 찾아 사용자에게 보여주는 형태

Ø 추천

사용자가 좋아할 거라고 예측되는 항목을 알아서 예측한 후 제시되는 결과

Page 4: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

Chapter 11. Recommender system

Recommender system: 유용한 아이템을 사용자에게 전달하는 것을 강조

Filtering system: 유용하지 않은 아이템을 제외하는 것을 강조

Content-based filtering: look at what 𝑢 likes and characterize 𝑥

Collaborative filtering: look at who likes 𝑥 and characterize u

𝑸. The essential filtering question is: will user 𝒖 like item 𝒙?

* 𝑢𝑠𝑒𝑟: 𝑢, 𝑖𝑡𝑒𝑚: 𝑥

• 𝑰𝒏𝒇𝒐𝒓𝒎𝒂𝒕𝒊𝒐𝒏 𝑹𝒆𝒕𝒓𝒊𝒆𝒗𝒂𝒍(𝑰𝑹)에 대해 알아봄 → 𝑰𝒏𝒇𝒐𝒓𝒎𝒂𝒕𝒊𝒐𝒏 𝑭𝒊𝒍𝒕𝒆𝒓𝒊𝒏𝒈 𝑰𝑭 를 알아보자

• Ad hoc search → 사용자에게 많은 feedback을 받지 못함Filtering → 사용자로부터 많은 feedback information을 모을 수 있음

Page 5: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

11.1 Content-based Recommendation• 𝑢𝑠𝑒𝑟의 관심 𝑐𝑜𝑛𝑡𝑒𝑛𝑡(𝑖𝑡𝑒𝑚)를 학습하여 현재 기사의 내용과 𝑢𝑠𝑒𝑟가 좋아하는 𝑐𝑜𝑛𝑡𝑒𝑛𝑡를 잘 설명한“𝑐𝑜𝑛𝑡𝑒𝑛𝑡𝑠 𝑝𝑟𝑜𝑡𝑜𝑡𝑦𝑝𝑒”과 일치시킴

장 점 단 점

- No item cold start problem- Requires contents for item- we know how to measure similarity of items

- Less diversity

ü 개인화 수준을 목표

ü 개개인의 선호도와 제품의 𝑐𝑜𝑛𝑡𝑒𝑛𝑡를 고려하여 추천

Page 6: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

11.1 Content-based Recommendation

→ 𝑐𝑜𝑛𝑡𝑒𝑛𝑡가 흡수되는 일반적인 information filtering system

→ System은 문서가 도착하면 바로 전달할지 말지에 대한

결정을 내려야함

𝑢𝑠𝑒𝑟G𝑠 관심사에 대한 knowledge를 갖고 있음

① 선호 item에 나타나는 내용을 분석(item proOile)

② user의 선호도를 나타내는 user proOile생성

③ item과 user proOile사이의 similarity를 계산

④ user가 선호하는 item을 찾아 추천

𝑢𝑠𝑒𝑟가 관심있어하는 text summary/keywrods입력을 받음

Page 7: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

11.1 Content-based Recommendation

𝑰𝒏𝒊𝒕𝒊𝒂𝒍𝒊𝒛𝒂𝒕𝒊𝒐𝒏𝒎𝒐𝒅𝒖𝒍𝒆

매우 제한된 텍스트 설명 or 아주 적은 예제를 기반으로 시작된 시스템

𝑫𝒆𝒄𝒊𝒔𝒊𝒐𝒏𝒎𝒐𝒅𝒖𝒍𝒆

텍스트 문서와 𝑢𝑠𝑒𝑟의 profile description이 주어지면 문서의 전달여부를 결정

𝑳𝒆𝒂𝒓𝒏𝒊𝒏𝒈𝒎𝒐𝒅𝒖𝒍𝒆

제한된 𝑢𝑠𝑒𝑟의 판단을 통해서 제공된 문서가 관련이 있는 것인지 학습

(𝑢𝑠𝑒𝑟에게 문서를 전달하지 않는다면 𝑢𝑠𝑒𝑟가 관심있어하는 문서를 알 수 없음)

< Content-based filtering의 세가지 기본 구성 요소 >

모든 𝑚𝑜𝑑𝑢𝑙𝑒은 𝑢를 최적화 임계값을 조정하고 벡터 표현을 변경하는데 사용

𝑆𝑐𝑜𝑟𝑖𝑛𝑔 𝑚𝑜𝑑𝑢𝑙𝑒로 공급됨

Vector space model

𝑢𝑠𝑒𝑟의 관심사 정보

Page 8: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

11.1 Content-based Recommendation

𝑅 ∶ set of relevant documents delivered to the user𝑅G : set of non-relevant documents delivered to the user

• 𝐻𝑜𝑤 𝑑𝑜 𝑤𝑒 𝑘𝑛𝑜𝑤 𝑡ℎ𝑖𝑠 𝑓𝑖𝑙𝑡𝑒𝑟𝑖𝑛𝑔 𝑠𝑦𝑠𝑡𝑒𝑚 𝑎𝑐𝑡𝑢𝑎𝑙𝑙𝑦 𝑤𝑒𝑙𝑙? 𝑀𝐴𝑃이나 𝑁𝐷𝐶𝐺같은 순위 평가 도구를 사용할 수 없음→

* 𝑀𝐴𝑃 𝑀𝑒𝑎𝑛 𝐴𝑣𝑒𝑟𝑎𝑔𝑒 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 :특정 쿼리에 대해 유난히 좋은 결과를 가지는 시스템이 있을 수 있기 때문에 여러 쿼리로 평가하는 방법.𝑁𝐷𝐶𝐺 𝑁𝑜𝑚𝑎𝑙𝑖𝑧𝑒𝑑 𝐷𝑖𝑠𝑐𝑜𝑢𝑛𝑡𝑒𝑑 𝐶𝑢𝑚𝑢𝑙𝑎𝑡𝑖𝑣𝑒 𝐺𝑎𝑖𝑛 : 서로 다른 쿼리에 대한 비교를 위해 0과 1사이의 값을 갖도록 정규화한 것.

특정 쿼리에 대하여 DCG 값이 가장 커지는 경우를 IDCG라 정하고이를통해 DCG 값을 나눈 값

• 실시간으로 threshold 이상 여부를 결정해야함 → 𝑢𝑡𝑖𝑙𝑖𝑡𝑦 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛 사용(일반적인 전략)

i) 𝑢 = 10 𝑅 − 1 𝑅G- 연관 문서를 전달할 때 높은 보상, 비연관 문서를 전달할 경우 작은 벌점- 시스템은 더 많은 문서를 제공하는 것이 좋음

ii) 𝑢 = 1 𝑅 − 10 𝑅G- 연관 문서를 전달할 때 작은 보상, 비연관 문서를 전달 할 경우 높은 벌점- 시스템은 많은 문서를 제공하는 것을 꺼리고, 관련 문서임을 확신해야함

𝑢𝑡𝑖𝑙𝑖𝑡𝑦 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛은 특정 응용 프로그램 기본 설정을 기반으로 설계

𝑊ℎ𝑎𝑡 𝑖𝑠 𝑢𝑡𝑖𝑙𝑖𝑡𝑦 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛? System이 결정을 내릴 수 있게 도와줌

Page 9: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

11.1 Content-based Recommendation< 최적의 𝜃값을 정하기 위한 𝑏𝑒𝑡𝑎 − 𝑔𝑎𝑚𝑚𝑎 threshold learning>

• Censored data( judgements only available on

delivered documents)

• Little/none labeled data

• Exploration-Exploitation tradeoff

(= 제한된 자원 내에서 이익을 최대화하는 문제)

𝑁이 크다면, training dataset이 충분히 많기 때문에 𝛼를 작게 만들어

exploration을 줄임

𝑁이 작다면, training dataset이 적기 때문에 𝛼를 크게 만들어

exploration을 하도록함

Page 10: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

11.2 Collaborative Filtering• 관심사가 비슷한 𝑢𝑠𝑒𝑟1, 𝑢𝑠𝑒𝑟2가 있을 때, 𝑢𝑠𝑒𝑟1이 좋아하는 𝑐𝑜𝑛𝑡𝑒𝑛𝑡를 𝑢𝑠𝑒𝑟2도 좋아할 것이라는 가정으로

해당 𝑐𝑜𝑛𝑡𝑒𝑛𝑡를 𝑢𝑠𝑒𝑟2에게 추천함

Assumptions

• 공통 관심사를 가지는 𝑢𝑠𝑒𝑟는 비슷한 선호도를 갖음

• 비슷한 선호도를 가지는 𝑢𝑠𝑒𝑟는 같은 관심사를 공유함

+ 과거의 경향이 미래에서도 그대로 유지될 것

장 점 단 점

- No item content required- Better Prediction Accuracy

- Item & User cold start problem- Data sparsity scalability

Page 11: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

11.2 Collaborative Filtering

Arrange the users and objects into a matrix 𝑋.

• given a user 𝑢 → rank other users based on similarity 𝑢|, 𝑢}, … , 𝑢�

• The preference is on a common set of items 𝑜|, 𝑜}, … , 𝑜�• The element in that position would be the user rating 𝑋�� .

→ 𝑢𝑠𝑒𝑟와 𝑜𝑏𝑗𝑒𝑐𝑡간의 관계만을 고려함→ 𝑜𝑏𝑗𝑒𝑐𝑡는 영화, 제품 등이 될 수 있음

∗ 많은 항목에는 알 수 없는 값이 있으며 다른 알려진 값을 기반으로 행렬의 요소 값을 추론하는 것이 Collaborative Filtering의 특징임

𝑃𝑟𝑜𝑏𝑙𝑒𝑚과거 기존의 데이터에 의존하기

때문에 정보가 없는 첫 사용자에게는

추천할 수 없는 문제

→ 𝑐𝑜𝑙𝑑 𝑠𝑡𝑎𝑟𝑡 𝑝𝑟𝑜𝑏𝑙𝑒𝑚

Page 12: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

𝑢𝑠𝑒𝑟의 선호도(Rating) 기반으로 𝑢𝑠𝑒𝑟 또는 𝑖𝑡𝑒𝑚의 유사도를 계산하는 방법

11.2 Collaborative Filtering

𝑀𝑒𝑚𝑜𝑟𝑦 − 𝑏𝑎𝑠𝑒𝑑 𝑎𝑝𝑝𝑟𝑜𝑎𝑐ℎ

Ø User-based CF(데이터 양이 적고, 변경이 자주 일어나는 경우)

- 𝑢𝑠𝑒𝑟 주변의 취향을 고려해 추천

- 유사한 선호도를 가진 𝑢𝑠𝑒𝑟를 발견, 활성 사용자는 아직 평

가가 매겨지지 않은 아이템에 대해 유사한 사용자가 제공한

평가를 바탕으로 활성 사용자에게 새로운 아이템을 추천

Ø Item-based CF(데이터 양이 많고, 변경이 자주 일어나지 않는 경우)

- User-based와 달리 아이템의 유사한 정도를 이용해서 추천

- 아이템들 간의 유사한 정도를 찾은 후 과거에 활성 사용자가

평가한 아이템과 아직 평가가되지 않았지만 유사한 아이템을

추천

Page 13: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

11.2 Collaborative Filtering- 사용자 간의 similarity를 어떻게 알 수 있을까? → Pearson Correlation Coefficient, Cosine measure 등…(여러 방법이 있음)

One popular approach is the Pearson Correlation Coefficient

(i)

Another measure is the cosine measure

(ii)

Pearson Correlation Coefficient

Alice는 User1과 가장 유사하다

Page 14: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

Chapter 12. Overview of text data analysis

𝐼𝑛 𝑃𝑎𝑟𝑡 𝐼𝐼𝐼,

We weill cover techniques for further processing relevant text data so as to extract and discover usefulactionable knowledge that can be directly used for decision making or supporting user’s task.

𝐼𝑛 𝑃𝑎𝑟𝑡 𝐼𝐼,

We have covered techniques for text data access, which is logically an initial step for processing text datafor the purpose of both significantly reducing the size of the data set to be further processed and filtering outany obvious noise in the text data.

텍스트 내용을 더 자세하게 이해하고 주제별 트렌드 또는 감성분석과 같은흥미로운 패턴을 발견하여 지식을 추출하는 것을 목표로함.

Page 15: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

12.1 Intro• Text data의 응용 분야

- Business Intelligence(BI): 제품 리뷰를 텍스트 데이터로 활용하여 소비자들의 의견을 추출할 수 있고,

제품 관리자는 이를 활용하여 피드백을 받을 수 있음

- Social media: 트윗처럼 실시간으로 생성되는 텍스트 데이터를 통해 정책에 대한 사람들의 의견을 감성분석으로 알아봄

“Big data”는 우리의 인식을 향상시킴

ü microscope → micro world

ü telescope → see things far away

ü Datascope → see useful hidden knowledge buried in largeamounts of data.

Page 16: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

12.2 Text vs. Non-text Data: Humans as Subjective Sensors

Page 17: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

12.3 Landscape of text mining tasks

Page 18: Chapter 11. Recommender Systems Chapter 12. Overview of Text …datamining.uos.ac.kr/wp-content/uploads/2019/02/IR... · 2019-05-20 · Chapter 11. Recommender system Recommender

Thank you