65
1 2009 년 년년년년 년년년년 - 년년년년 년년년 년년년년 – 년년년 NHN( 년 ) 시시시시시 시시시시 시시시 시시시시 2009 년 년년년 년 년년년년 년년 : 년년년년년 년년년년 년년 : 년년년년년 년년년년 , 년년년년년년년 2009.12.04 년년년 NHN 년

네이버 시맨틱 영화 검색

Embed Size (px)

DESCRIPTION

얼마전에 오픈한 네이버랩 시맨틱 영화검색 서비스를 소개합니다. 시맨틱웹 기술을 영화 데이터베이스 검색에 적용하였습니다. 현재 한국형 포털에서는 검색의 만족도를 높이기 위해 많은 노력과 비용을 들여 양질의 컨텐츠 DB를 자체 구축하고 있습니다. 하지만 현재의 컨텐츠 DB에 대한 검색은 매우 제한적입니다. 대부분 한 단어 검색 또는 제한된 패턴의 검색만 가능합니다. 많은 비용을 들여 구축한 컨텐츠인 만큼 더 많이 검색 결과로 노출될 필요가 있고, 더 많이 활용될 필요가 있습니다. 시맨틱 영화검색은 이러한 목적을 가지고 영화 컨텐츠 DB에 대해 새로운 검색 방법과 검색 인터페이스를 실험한 결과입니다.

Citation preview

Page 1: 네이버 시맨틱 영화 검색

12009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주

NHN( 주 )

시맨틱웹과 네이버랩 시맨틱 영화검색

2009년 시맨틱 웹 컨퍼런스주관 : 웹사이언스 워크그룹

주최 : 웹사이언스 워크그룹 , 국립중앙도서관

2009.12.04강병주 NHN㈜

Page 2: 네이버 시맨틱 영화 검색

2

Contents

제 1 부 데이터베이스 검색

제 2 부 시맨틱웹과 데이터베이스 검색

제 3 부 네이버랩 시맨틱 영화검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 3: 네이버 시맨틱 영화 검색

32009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

요약

이제 데이터베이스 검색이 아니라 데이터베이스 정보검색이다 .

시맨틱웹 ( 데이터 웹 ) 은 데이터베이스 정보검색 시대를 열 것이다 .

시맨틱 영화검색은 데이터베이스 정보검색을 가능성을 위한 실험이다 .

1.2.3.

Page 4: 네이버 시맨틱 영화 검색

4

데이터베이스 검색

제 1 부

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 5: 네이버 시맨틱 영화 검색

5

데이터베이스 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 6: 네이버 시맨틱 영화 검색

6

검색 = 웹 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 7: 네이버 시맨틱 영화 검색

7

Web Search

비정형 텍스트 데이터 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 8: 네이버 시맨틱 영화 검색

82009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

웹 이전 웹 이후

데이터베이스 검색 텍스트 검색

Page 9: 네이버 시맨틱 영화 검색

9

웹 검색 시대에는…

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

데이터베이스 검색

텍스트 검색

Page 10: 네이버 시맨틱 영화 검색

10

Enterprise Search

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 11: 네이버 시맨틱 영화 검색

11

한국 포털에서 데이터베이스 검색컨텐츠 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

스마트 파인더

Page 12: 네이버 시맨틱 영화 검색

12

음악 DB

네이버 컨텐츠 DB

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

영화 DB 음악 DB

요리 DB자동차 DB

부동산 DB

인물 DB

책 DB맛집 DB

Page 13: 네이버 시맨틱 영화 검색

132009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 14: 네이버 시맨틱 영화 검색

14

컨텐츠 검색의 한계

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

대부분 한 단어 질의에 대해서만 작동

Page 15: 네이버 시맨틱 영화 검색

15

스마트 파인더전형적인 양식 기반의 질의 인터페이스

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 16: 네이버 시맨틱 영화 검색

162009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 17: 네이버 시맨틱 영화 검색

17

스마트 파인더의 한계

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

한정된 패턴의 질의만 가능

Page 18: 네이버 시맨틱 영화 검색

18

데이터베이스 검색의 딜레마

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 19: 네이버 시맨틱 영화 검색

19

데이터베이스에는 정보가 있지만 검색할 방법이 없어 !

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 21: 네이버 시맨틱 영화 검색

21

문제는 검색 인터페이스

검색 인터페이스

검색 인터페이스가 병목점이다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 22: 네이버 시맨틱 영화 검색

22

Unstructured datafor human

Structured datafor machine

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 23: 네이버 시맨틱 영화 검색

232009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Structured data is boring and useless.

Page 24: 네이버 시맨틱 영화 검색

242009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Unstructured data

is sexy.

Page 25: 네이버 시맨틱 영화 검색

25

데이터베이스 질의 인터페이스

사용성이 높아야 한다

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

질의 표현력이 높아야 한다

범용성이 높아야 한다

1.2.3.

Page 26: 네이버 시맨틱 영화 검색

26

사용성 , 표현력 , 범용성

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

사용성

표현력 범용성

Page 27: 네이버 시맨틱 영화 검색

27

데이터베이스 질의 인터페이스의 3 가지 유형

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Form-based Interface

Natural Language Inter-face

Visual Interface

스마트 파인더

시맨틱 영화검색 ( 오브젝트 검색)

시맨틱 영화검색 ( GQI )

Page 28: 네이버 시맨틱 영화 검색

28

낮은 사용성과 낮은 범용성

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Form-based Interface

Natural Language Inter-face

Visual Interface

높다

낮다

낮다

사용성

낮다

높다

높다

표현력

낮다

낮다

낮다

범용성

Page 29: 네이버 시맨틱 영화 검색

29

시맨틱웹 기술로 범용성을 높인다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Form-based Interface

Natural Language Inter-face

Visual Interface

높다

낮다

낮다

사용성

낮다

높다

높다

표현력

낮다

높다

높다

범용성

어려운 문제 RDF 기술

Page 30: 네이버 시맨틱 영화 검색

302009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

데이터베이스 검색 결과

기존 통검검색 결과

Page 31: 네이버 시맨틱 영화 검색

31

제 2 부

시맨틱 웹과 데이터베이스 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 32: 네이버 시맨틱 영화 검색

32

Semantic Web 비전

I have a dream for the Web [in which computers] be-come capable of analyzing all the data on the Web – the content, links, and transactions between people

and computers. A ‘Semantic Web’, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to ma-chines. The ‘intelligent agents’ people have touted for

ages will finally materialize.

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

- Tim Berners-Lee, 1999

Page 33: 네이버 시맨틱 영화 검색

33

시맨틱 웹

웹에 있는 정보를자동으로 처리하기 위한 웹

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 34: 네이버 시맨틱 영화 검색

34

시맨틱 웹

We need structured data on the Web.

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 35: 네이버 시맨틱 영화 검색

35

왜 데이터베이스 검색인가 ?

웹에 구조화된 데이터 ,공개 데이터베이스가 증가하고 있다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 36: 네이버 시맨틱 영화 검색

36

Open Data

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Open Source

Open API

Open Data

Page 37: 네이버 시맨틱 영화 검색

37

Activities Promoting Open Data

Linking Open Data Open Data in Science Freebase Science Commons Free Our Data The Open Knowledge Foundation Blue Obelisk Research Data Canada

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 38: 네이버 시맨틱 영화 검색

38

Linked Data Cloud

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 39: 네이버 시맨틱 영화 검색

39

데이터의 구조화

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

RDFa: The Se-mantic Web’s missing link

[Mark Birbeck, SemTech 2009]

Page 40: 네이버 시맨틱 영화 검색

40

구조화된 데이터는 매우 많다

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

[Scott Brinker, 2009]

Page 41: 네이버 시맨틱 영화 검색

41

정보 검색 VS. 데이터베이스 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

정보 검색

데이터베이스 검색

Matching 방식

Partial Matching

Exact Matching

Page 42: 네이버 시맨틱 영화 검색

42

데이터베이스 정보검색

데이터베이스 데이터에 대한 정보검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 43: 네이버 시맨틱 영화 검색

43

정보검색의 대중화 조건

데이터가 매우 매우 많아야 한다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

검색이 아주 쉬워야 한다 .

Page 44: 네이버 시맨틱 영화 검색

44

데이터베이스 검색은 어렵다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 45: 네이버 시맨틱 영화 검색

45

근본적인 문제

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

기계는 자연어를 이해하지 못한다 !

데이터베이스

Page 46: 네이버 시맨틱 영화 검색

46

내부 데이터베이스 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

사용자는 데이터베이스구조를 알 필요 없이자연어로 검색 가능

데이터베이스

번역

Page 47: 네이버 시맨틱 영화 검색

47

시맨틱 웹 기술의 역할

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

영화 DB 1

영화 DB 2

영화 DB 3

번역 1

번역 2

번역 3

Open

Open

Open

Page 48: 네이버 시맨틱 영화 검색

48

데이터베이스 정보검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

영화 DB 1

영화 DB 2

영화 DB 3“ 일본 애니메이션 영화”

Page 49: 네이버 시맨틱 영화 검색

49

World Wide Web

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Decentralized Control

Page 50: 네이버 시맨틱 영화 검색

50

Ontology Problem

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 51: 네이버 시맨틱 영화 검색

51

과거에는 왜 ?

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 52: 네이버 시맨틱 영화 검색

52

Web

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 53: 네이버 시맨틱 영화 검색

53

정보 검색

정보검색 시대의 도래

텍스트 검색 + 웹 웹 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

데이터베이스 검색 + 웹 데이터 웹 검색

Page 54: 네이버 시맨틱 영화 검색

54

제 3 부

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

시맨틱 영화검색

Page 55: 네이버 시맨틱 영화 검색

55

기조

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

시맨틱 영화검색은 오브젝트 검색

영화

인물

영화제

국가

학교

회사

Page 56: 네이버 시맨틱 영화 검색

562009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

문서 검색 VS. 오브젝트 검색

Page 57: 네이버 시맨틱 영화 검색

572009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

질의도 오브젝트 단위로 하고검색 결과도 오브젝트 단위로

Page 58: 네이버 시맨틱 영화 검색

58

시맨틱 영화검색의 특징

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

정답을 요구하는 질의에 대해 정답을 찾아준다

두 개의 오브젝트 사이에 의미 있는 관계를 찾아준다 .

집합으로 집합을 찾는 검색

“ 한국 여자 감독 영화”

“ 박찬욱 감독 영화” , “ 올드보이 주연 배우”

“ 봉준호 송강호” , “ 김혜수 김동현”

집합 기반 검색

관계 검색

정답 검색

2

3

4

5

길고 복잡한 질의가 가능하다 .

“ 스파이더맨 출연 한국 배우 ”길고 복잡한 질의

1의미가 결정된 오브젝트 단위로 검색

자연어 모호성 최소화오브젝트 검색

Page 59: 네이버 시맨틱 영화 검색

59

특정 오브젝트에 대해 관련 속성 정보들이 정리되어 나옴

“ 해운대”컨텐츠 검색

시맨틱 영화검색의 특징

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

자연어 형식으로 질의 가능

“ 부산 출신 감독”자연어 검색

정의된 모든 속성의 조합으로 검색

실재 DB 에 존재하지 않는 정보를 추론 규칙으로 추론

새로운 발견

“ 봉준호 영화” , “ 타짜 배역”

“2007 일본 액션 영화”

“ 피터 폰다 가족”추론 검색

속성 검색

다양한 의미 해석6

7

8

9

10

Page 60: 네이버 시맨틱 영화 검색

60

시맨틱 자동 완성

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 61: 네이버 시맨틱 영화 검색

61

시맨틱 자동 완성 (2)

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

1 차 자동 완성

2 차 자동 완성

Page 62: 네이버 시맨틱 영화 검색

62

시맨틱 검색어 추천

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

확장 검색어 추천 : 온톨로지를 이용한 기계적인 키워드 확장

연관 검색어 추천 : 키워드와 관련 높은 영화인 - 영화인 , 영화 - 영화인 , 영화 - 영화 추천

Page 63: 네이버 시맨틱 영화 검색

63

GQI

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Page 64: 네이버 시맨틱 영화 검색

64

결론

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

이제 데이터베이스 검색이 아니라 데이터베이스 정보검색이다 .

시맨틱웹 ( 데이터 웹 ) 은 데이터베이스 정보검색 시대를 열 것이다 .

시맨틱 영화검색은 데이터베이스 정보검색을 가능성을 위한 실험이다 .

1.2.3.

Page 65: 네이버 시맨틱 영화 검색

65

Profile

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

강병주Byung-Ju KANG

소속 : NHN( 주 )

주요관심분야 : 시맨틱웹 , 집단지성 , 정보검색 , 자연어처리

개인블로그 : 시맨틱웹과 집단지성 http://blog.naver.com/semanian

이메일 : [email protected]