38
제안 배경 - 2.0 & 집단지능 & SNS etc… 제안서 (초안) 작성자: 민병국 (2008.4.30)

[2008] 민병국 - 주제검색과 오픈검색 (제안)

  • Upload
    -

  • View
    101

  • Download
    4

Embed Size (px)

Citation preview

Page 1: [2008] 민병국 - 주제검색과 오픈검색 (제안)

제안 배경- 웹2.0 & 집단지능 & SNS etc…

제안서 (초안)

작성자: 민병국 (2008.4.30)

Page 2: [2008] 민병국 - 주제검색과 오픈검색 (제안)

검색: 쿼리가 가리키는 문서 위치 제어

사용자쿼리

문서셋 (콜렉션)

쿼리와문서를1:1로직접연결

쿼리를여과없이반영: 수동적인검색

1

2

3

역색인파일을여과없이적용: 단순필터링과스코어링

2[제안서] 주제검색과 오픈검색 - 민병국

Page 3: [2008] 민병국 - 주제검색과 오픈검색 (제안)

현재의 검색 기술

90년대부터 디스크 가격이 낮아지면서 현실화

빠른 속도의 String Search를 위해 Text에서 검색 대상이 되는String(단어)를 추출하고 위치를 기록

Text 원문 대비 80% ~ 400% 수준의 역색인 구축

Ranking 모델

다양한 통계적 모델이 제시됨

Online update 처리

실시간 문서 추가, 삭제, 변경

키워드기반검색엔진으로부터탈피

• Question Answering

• Classification

• Summarization

• Recommender Systems

• Cross Language IR

• Information Extraction

• Topic Detection & Tracking

•정보공유의필요성

•분류된정보의필요성

•양질의정보의정렬의필요성

•더정확한결과의필요성

변화

의미검색으로의확장

3[제안서] 주제검색과 오픈검색 - 민병국

Page 4: [2008] 민병국 - 주제검색과 오픈검색 (제안)

능동적인 검색: 모델링, 전처리

사용자쿼리

문서

문서모델링: 연관검색어, 쿼리확장등..

쿼리모델링: Clustering, MI, Categorization 등..

+ 의미사전

의미색인(Semantic Indexing)or

언어모델링(Language Modeling)

4[제안서] 주제검색과 오픈검색 - 민병국

Page 5: [2008] 민병국 - 주제검색과 오픈검색 (제안)

SNS (Social Network Service)

정의

사회적 관계 개념을 인터넷 공간으로 가져와 사람과 사람간의 관계맺기를 통해 네트워크 형성을 지원하며 개인의 일상사나 관심사를공유/소통시켜주는 서비스

같은 취미나 생각을 가진 사람들끼리 네트워크가 형성되면 단기간내에 폭발적으로 확대될 수 있어 포털 사이트들의 새로운 수익 모델로 자리 잡아가고 있음

종류

블로그형: FriendStar(2002), MySpace(2003)

오픈형: Facebook(2004)

폐쇄형: Mixi(미쿠시,일본), YUCASEE(일본)

니치형: Dogster, Catster, Boompa, Farmster, TotJot, Traineo, Daum Cafe

매칭형: Linkedln(미국), Ecademy(영국)

영상중심형: YouTube(2005,캐나다)

검색중심형: Eurekster

5[제안서] 주제검색과 오픈검색 - 민병국

Page 6: [2008] 민병국 - 주제검색과 오픈검색 (제안)

Social Network와 FOAF

소셜 네트워크에서 온톨로지 필요성

온톨로지 기술을 활용하여 웹인프라로써 구축 가능

사람들은 FOAF와 같은 온톨로지를 통해 다양한 사람들과 손쉽게 연결될 수있음

친구의 친구(FOAF: Friend Of A Friend)

친구를 통해 친구를 만들어 가는 인간관계를 RDF로 표현한 온톨로지

‘A가 B를 알고있다’ -> ‘foaf:knows’ 라는 속성으로 표현 FOAF에 표현된 개인정보와 간단한

Social Network 정보는 FOAF를지원하는 시스템을 통하여다른 FOAF 문서에 연결될 수 있음

FOAF가 자신의 홈페이지에 RSS와같은 방식으로 공개되면 다른 사용자가이를 참조할 수 있는데, 이를 통해연결성이 확장될 수 있음

직장, 학교, People You Know 항목 등..

foaf:knows

foaf:knows

foaf:knows

foaf:knows

foaf:knows

foaf:knows

foaf:knows

foaf:knows

6[제안서] 주제검색과 오픈검색 - 민병국

Page 7: [2008] 민병국 - 주제검색과 오픈검색 (제안)

집단지성(Collective Intelligence)

정의

다수의 개체들이 서로 협력 혹은 경쟁을 통하여 얻게 되는 지적 능력에 의한결과로 얻어진 집단적 능력

집단지능, 협업지성, 공생적지능이라고도 함

활용 예

위키백과(Wikipedia)

크라우드소싱

롱테일 경제 원리를 바탕으로한 다양한 지식 비지니스에서 효율성 향상을 위해 크라우드소싱을 통해 집단지성을 활용하고 있음

지능형 음악 서비스

사이버 음악동호회, 음악포털, 블로그 홈페이지 등으로부터 사용자 상황따라맞춤형 음악 추천

집단지성또는사회망에의한모델링

쿼리

문서

(기분,날씨,이벤트 등..)

7[제안서] 주제검색과 오픈검색 - 민병국

Page 8: [2008] 민병국 - 주제검색과 오픈검색 (제안)

웹2.0

웹2.0의 특징 (by 팀 오라일리)

플랫폼으로서의 웹(The Web as Platform)

집단지성(collective intelligence) 이용

데이터는 다음세대의 인텔 인사이드

소프트웨어 릴리즈 주기의 종말

가벼운(Lightweight) 프로그래밍 모델

단일 디바이스를 넘어선 소프트웨어

풍부한 사용자 경험

웹2.0 서비스 모델의 특징

매쉬업(Mashup)

대중(사용자)에 의한 분류 방법: 포크소노미(Folksonomy)

롱테일(Long Tail)

소셜 네트워크 서비스(SNS: social network service)

CMS(Content Management System)

퍼머링크(Permalink) = 고정링크

마이크로포맷(microfomats)

8[제안서] 주제검색과 오픈검색 - 민병국

Page 9: [2008] 민병국 - 주제검색과 오픈검색 (제안)

미래웹의 형태들

쉬운 웹(EasyWeb)

오프라인과 괴리감이 없는 온라인 서비스

현재의 웹2.0 방향

밝은 웹(BrightWeb)

웹에 오가는 사람과 그 사람의 행동이 보이는 웹

검색과 이동의 개념 변화, 분산형 포털, n2n웹

리얼 웹(RealWeb)

현재의 검색사이트: 과거의 문서를 검색, 웹 자체도 정적웹

실시간이 강화되고 개인 자체가 저장장치가 되고 아바타가 되는 웹

아트만 웹(AtmanWeb), 로밍 웹(RoamingWeb)

개인정보를 가지고 다니는 로밍데이터 시대, 커뮤니티가 사람을 따라 움직이는 로밍커뮤니티 시대

개인 자체가 웹의 시작이자 끝이 되는 웹, 개인이 웹의 한 구성원이자 전부인 시대

생물학적 웹(BioWeb)

스스로 생성, 성장, 소멸하는 웹, 웹안의 웹

9[제안서] 주제검색과 오픈검색 - 민병국

Page 10: [2008] 민병국 - 주제검색과 오픈검색 (제안)

분산 네트워크

게이트웨이

메트카프의 법칙(Metcalfe’s Law)

네트워크의 가치가 사용자의 수의 제곱에 비례 (네트워크 효과)

웹에서의 네트워크

게이트웨이(Gateway): 구글, 야후, 네이버

노드(Node): 이용자의 최종 목적지, 콘텐츠의 공급자

허브(Hub): 센터로서 독자적인 네트워크를 형성할 수 있는 플랫폼

네트워크의 생태계 순환

CP는무한히 증식 (open 개념에 의한 확장)

Top-down 흐름에서 상위는 best 문서만 다루면 됨(신뢰성)

허브허브

허브노드

노드

노드

노드

노드

노드

노드

노드

노드

노드

노드노드

10[제안서] 주제검색과 오픈검색 - 민병국

Page 11: [2008] 민병국 - 주제검색과 오픈검색 (제안)

주제검색 및 오픈검색- 통합 주제검색, 상세 주제검색- Best 오픈검색

제안서 (초안)

작성자: 민병국 (2008.4.30)

Page 12: [2008] 민병국 - 주제검색과 오픈검색 (제안)

검색 과정: 질의주제질의어결과문서선별클릭평가재검색

질의어 ‘방송사고’

질의주제 ‘xx 방송사고’: 무슨일인데? 누가? 뭘?=> 눈으로찾으라고? (0.5초) 안띄네..=> 비슷한것있군. 뭐지? 바로클릭!

‘방송사고’ 관련문서모두검색- 최근방송사고, 큰방송사고- 날뻔한방송사고, 사고이후- 방송국헤이?, 네티즌비난- 중국,외국/ 동영상,다시보기- 사고관련방송, 방송언어와사고방식- 방송관련해아쉬움사고있음- 사고관련법률등 방송교재- 주제별중복다수…

쿼리선택=> 모름, 대충작성…

12[제안서] 주제검색과 오픈검색 - 민병국

Page 13: [2008] 민병국 - 주제검색과 오픈검색 (제안)

질의주제와 문서주제의 매칭

vs

동상이몽??

시멘틱 검색: 어떻게??

동의어, 유사어 시소러스: 쿼리 확장어 (리콜확대,유사질의모으기)

쿼리내 연관단어: 방송사고->노출방송사고->야한영화, 일본야동 (네티즌선택,재검색유발)

문서 의미 클러스터링: 사용자 질의주제와 맞는가? How detail or How rough?

질의의분포

문서의분포

13[제안서] 주제검색과 오픈검색 - 민병국

Page 14: [2008] 민병국 - 주제검색과 오픈검색 (제안)

통합검색 스타일 vs 시멘틱검색 스타일

쿼리

뉴스

블로그

카페

통합검색 시멘틱검색(?)

뉴스

블로그

카페

경제

사회

문화

정치

뉴스

블로그

카페

뉴스

웹뉴스

뉴스

웹 블로그

경제

사회 건강

문화

정치생활

건강

경제 생활

국제

경제문화

다음

네이버

큐로보

구글

14[제안서] 주제검색과 오픈검색 - 민병국

Page 15: [2008] 민병국 - 주제검색과 오픈검색 (제안)

제안의 목적

사용자가선택한주제로검색을집중하자!!

=> 검색엔진이 몽땅 퍼다주는 내용을 보고 선별하는 것보다 자신이 선택한 내용내에서 선별하는 즐거움을 주자

주제별리콜을 높이자!!

남들도 많이 찾는 주제를 빠짐없이 보여주자 (사회망,집단지능)

관련 주제도 함께 보여주어 검색결과를 이해시키고 재쿼리를 유도하자(수평적 확장 검색)

주제별정확도를 높이자!! (사용자 편집 검색, Back 기능 필수)

주제에 대한 집중도를 높여 만족도를 높이자 (결과내 재검색, 휴지통)

⇒ 클러스터링보다훨씬 효과적이고 호응도가 높을 거라 생각함

사용자참여에의한검색결과를만들자!!

=> 사용자 편집 검색을 집단적으로 축적하여 사용할 수 있도록 하자

정말 잘 들어맞은 검색결과를남들도 이용하게하자!!

주제별(키워드별) 검색결과 블로그를 만들어 퍼나르기 (축적, 평가)

쿼리없이 무작정 눌러보기일 경우 태그를 입력토록 유도

사용자들이검색결과를만들어 보도록 하자!! (Wiki 스타일)

주제별 (키워드별) 검색결과 블로그의 내용 추가/정렬할 환경 제공

15[제안서] 주제검색과 오픈검색 - 민병국

Page 16: [2008] 민병국 - 주제검색과 오픈검색 (제안)

다양한 주제의 군집 검색 결과

[제안서] 주제검색과 오픈검색 - 민병국 16

다양한 주제 제시

Logtail을 제외한 찾고자 하는 주제는 거의 다나옴

찾고자 하는 주제에 대한 네비게이션 기능 수행

검색결과를 잡지 보듯이 읽게함

사용자 recall 향상

같은 주제의 결과 군집

관심 주제에 대해서만나올거라는, 관련성 있는 문서만 나올거라는신뢰감 형성

주제내 검색에 대한Zoom In/Out 기능

Scatter & Gather 기능

Page 17: [2008] 민병국 - 주제검색과 오픈검색 (제안)

검색결과의 클러스터링

같은 내용별로 묶어서, 중복은 딸린 링크로 출력

문서의 임의적 클러스터링 결과는 사람이 이해하기 어려움

17[제안서] 주제검색과 오픈검색 - 민병국

Page 18: [2008] 민병국 - 주제검색과 오픈검색 (제안)

Daum의 관련/확장검색어

쿼리 ‘소고기’

관련검색어 한우, 광우병, 미국산 소고기, 소고기수입, 쇠고기, 소고기 부위, 3000밑반찬종류, 고기, 소부위

별그림, 소고기요리, 수입소고기, 소고기부위별사진, 갈비

확장검색어 소고기 수입, 소고기수입반대서명, 소고기수입날짜, 소고기 청문회, 소고기수입반대집회, 소고

기미역국, 소고기협상

쿼리 ‘방송사고’

관련검색어 뉴스 방송사고, 노출방송사고, 생방송 사고, 방송노출사고, 여자 노출사고, 역대 방송 사고, 방송

사고 동영상, 연예인 가슴노출, 연예인 방송사고, 연예인 누드

쿼리 ‘소녀시대’

확장검색어 소녀시대 baby baby, 소녀시대 성형전, 소녀시대 소녀시대, 소녀시대 kissing you, 소녀시대 다

시만난세계

쿼리 ‘메이크업’

관련검색어 make-up, 화장, 메이크업 배우기, 화장품, 화장 예쁘게 하는 법, 눈화장하는방법, 눈 커보이는

화장법, 출장메이크업, 화장법, 화장법배우기, 아이라인 그리는 법, 스모키화장법, 메이크업아티스트

화장검색어 메이크업카, 메이크업포에버, 메이크업 배우기, 메이크업팔레트, 메이크업박스, 메이크업베이스

, 메이크업 세트

• 관련검색어- 유사동의어 또는 유사 주제로쿼리확장 가능

• 확장검색어- 하위 주제로 쿼리확장 가능

18[제안서] 주제검색과 오픈검색 - 민병국

Page 19: [2008] 민병국 - 주제검색과 오픈검색 (제안)

편집된 검색결과

사용자가 읽어내는 방식으로 검색결과 출력

필요한, 흥미있는 모든 주제를 끄집어 내어 조합

주제별, 상식별, 와인종류별 등…

이런 방식은 콜렉션내 랭킹 기준과 전혀 다름

19[제안서] 주제검색과 오픈검색 - 민병국

Page 20: [2008] 민병국 - 주제검색과 오픈검색 (제안)

사람의 편집에 의한 검색

가장 좋은 검색결과는 결국 사람이 하는 검색

신뢰성 있는 검색결과는 보존될 가치가 있음

키워드별로 블로그를 만들어 보존하면 어떨까?

결과에 대한 사용자 피드백 수집 통로로도 이용

20[제안서] 주제검색과 오픈검색 - 민병국

Page 21: [2008] 민병국 - 주제검색과 오픈검색 (제안)

검색 필터

기능별 필터를 사용자가 add-on 하여 검색

사용자 정의 가능

자신이 좋아하는 원더걸스의 스케줄만 보고싶다? (소녀시대도..)

강남역의 데이트 장소만 보고싶다? (대학로는, 홍대는, 잠실은??)

21[제안서] 주제검색과 오픈검색 - 민병국

Page 22: [2008] 민병국 - 주제검색과 오픈검색 (제안)

주제검색&오픈검색 가상시나리오

Daum 주제검색페이지를열기전 ‘xx 방송사고’를 찾고싶다

그러나 무슨 방송사고로 쳐야 할지는 모르겠다

그 문서를 찾기 위한 가장 좋은 쿼리를 모름 (문서분포를 모름)

아뭏튼 ‘방송사고’를 쿼리로 해서 주제검색

Scene#1 – 통합주제검색 사람들이 질의했던 다양한 ‘방송사고’ 관련 주제가 나열됨

찾았던 ‘뮤직뱅크 방송사고’ 발견

그 문서그룹을 찾기위한 태그도 제공, 관련 문서건수도 표시

관련 문서그룹만 보기 위해 ‘펼치기(더보기)’ 버튼을 누름

Scene#2 - 주제상세검색 ‘뮤직뱅크 방송사고’에 대한 정확도와 주제 유사도가 높은순 정렬

문서마다 문서내용을 대표하는 태크 명시

상단에 문서그룹의 태그가 나열되어 관련성이 낮은 태그들을 휴지통에 넣어 비연관 문서들을 제거하며 검색결과를 수정할 수 있음

가장 좋은 검색결과를 공유하기 위해 오픈검색으로 홀더 링크를 눌러 보냄

Scene#3 – Best오픈검색 특정 키워드에 대한 관련 주제가 디렉토리로 연결되어 있음

‘뮤직뱅크 방송사고’ 관련하여 내가 찜했던 문서가 상위 문서로 랭크되어 있음

내가 찾았던 문서보다 더 좋은 문서도 발견됨

관련된 다른 주제들도 흥미있음 -> 블로그, 카페글, 뉴스, 동영상, 아고라, 세계N…

관련주제에 대해 다른 사람들의 의견이 트랙백으로 연결되어 있음

누군가 자기 글이 Best 오픈검색에 올랐다고 좋아하며 댓글을 달아놓았음

22[제안서] 주제검색과 오픈검색 - 민병국

Page 23: [2008] 민병국 - 주제검색과 오픈검색 (제안)

<가상> 주제별 통합검색 - scene#1

23[제안서] 주제검색과 오픈검색 - 민병국

Page 24: [2008] 민병국 - 주제검색과 오픈검색 (제안)

<가상> 주제별 상세검색 - scene#2

즉시랭킹반영: AJAX

24[제안서] 주제검색과 오픈검색 - 민병국

Page 25: [2008] 민병국 - 주제검색과 오픈검색 (제안)

<가상> 주제별 오픈검색 (블로그) - scene#3

자동 질의응답문서 생성 (cf. 지식in, 신지식)

FAQ 처리

모바일용 검색 결과

채널 통합 및 연결

뉴스

블로그

카페

신지식

음악

이미지

동영상

etc…

카테고리 관리

자동생성

기간별, 지역별 등 고정분류도 가능

사용자 참여 랭킹

순위조정가능

25[제안서] 주제검색과 오픈검색 - 민병국

Page 26: [2008] 민병국 - 주제검색과 오픈검색 (제안)

필요한 기술

쿼리 클러스터링 (Query Clustering)

멀티쿼리를 위한 쿼리확장어 수집

유사 질의 및 하위 개념 질의를 위한 질의 주제 자동 분류

문서 분류를 위한 의미사전 제공

중복문서 제거

검색결과의 품질 향상 (색인전, 검색후 적용)

중복문서제거에 의한 관련 문서의 리콜 향상

문서 자동태깅

사용자 검색 편집을 위한 도구 제공

주제상세검색을 위한 평가 척도로 활용

주제 유사도 스코어링 (Concept Similarity)

주제 검색시 쿼리에 대한 정확도와 주제 유사도 혼합하여 랭킹

특정 주제의 경우 동영상, 사진 우선 등의 별도의 스코어링 필요

컬렉션간 블렌딩(blending) 기법

UCC 문서 컬렉션, 뉴스, 동영상, 사진, 책, 음악, 지도 등을 혼합

사용자 주제 적합성 투표(voting)의 수집 및 협업적(CF) 랭킹 기법

해당 문서에 관련한 모든 주제에 대해서도 투표의 점수를 받을 수 있음

26[제안서] 주제검색과 오픈검색 - 민병국

Page 27: [2008] 민병국 - 주제검색과 오픈검색 (제안)

기술적 난제

Scene#1

기타 주제에 대한 처리

기존의 일반 검색으로 커버(?)

두 가지 이상 주제의 문서에 대한 처리

주제섹션 내 중복과 섹션별 교차중복이 있을 수 있음

확장검색어의 주제상 충분한 이격 필요

색인전 중복제거와 검색후 중복제거 필요

Scene#2

빈도 높은 짧은 단어위주의 태깅 피하기

문서에서 추출한 단어의 경우 경우 의미성이 정확한 긴 단어보다 모호한 짧은 단어가 태그로 선정될 수 있음 (Term Weighting)

긴단어 위주로 태깅 필요: 공백을 접으면서 기존 단어와 비교 처리(?)

쿼리와 친밀도 높은 문서 태그 선정 (이해도, 단어 접근성)

문서에서 추출된 태그는 사용자가 이해하기 쉽지 않을 수 있음

쿼리에서 추출된 단어로 문서의 태그를 선정해야함 (필터링,변환)

Scene#3

오픈검색 페이지의 상업화 방지와 악의적 투표의 관리 방안

27[제안서] 주제검색과 오픈검색 - 민병국

Page 28: [2008] 민병국 - 주제검색과 오픈검색 (제안)

쿼리 클러스터링

쿼리 전처리

세션ID 부여, 키워드 추출

동일세션내 빈도 계산

키워드간 연관성 계산 및 의미 클러스터링

각 주제간 충분한 이격 필요

유사 주제와 관련 주제, 하위 주제의 구분

단어 클러스터링, 구조적 클러스터링

유사어, 관련어, 하위어 구분

방송사고

라디오 방송사고

KBS 방송사고

서민정 방송사고

동일세션

28[제안서] 주제검색과 오픈검색 - 민병국

Page 29: [2008] 민병국 - 주제검색과 오픈검색 (제안)

하부그래프2~7간선무게합: 14.2520

단어 클러스터링

연관도기준단어 “허브” – ZMI 2.2 이상

가정의료기기

간병용품medi

mall

의료용품아로마

목욕용품아로마테라피

공유기네트워크

랜카드라우터

건강보조식품

하부그래프1간선무게합: 68.3576

하부그래프8간선무게합: 60.5544

하부그래프11간선무게합: 7.8032

하부그래프15간선무게합: 7.4993

하부그래프2~7간선무게합: 14.2520하부그래프2~7간선무게합: 60.5544

하부그래프2~7간선무게합: 14.2520하부그래프9,10간선무게합: 7.8032

하부그래프14간선무게합: 7.4993

하부그래프13간선무게합: 7.4997

하부그래프12간선무게합: 7.4997

29[제안서] 주제검색과 오픈검색 - 민병국

Page 30: [2008] 민병국 - 주제검색과 오픈검색 (제안)

문서 자동태깅

문서태깅

문서의 태그 및 연관도를 색인항목으로 포함

쿼리로부터 추출된 단어와 많이 매칭되어야 함

사용자 정의 태그 또는 운영자 정의 태그도 포함

태그 선정

집단지능을 이용: 사용자 클릭 문서에 대해 쿼리를 태깅

문서내 중요 단어를 이용한 태깅 (정보량 측정)

문서 전체, 구간별 또는 문단 단위 단어 선정

사전을 이용한 중요 단어 필터링

30[제안서] 주제검색과 오픈검색 - 민병국

Page 31: [2008] 민병국 - 주제검색과 오픈검색 (제안)

통검쿼리 기본통계

전체 데이터

세션당 약 3회 이상이므로 세션을 하나의 트랜잭션(동시발생사건)으로 처리 가능함

첫번째 쿼리를 이후 쿼리가 포함하는 세션내 쿼리 데이터

확장쿼리(재쿼리포함?)의 사용비율을 보기 위한 통계

확장검색 사용자 비율(세션비율)은전체의 약 22%

확장검색에 사용된 쿼리 또한 전체의 약 10%

22%의 세션에서 같은 주제를 찾기 위해 평균 2회 이상 쿼리했음을 보여줌

[제안서] 주제검색과 오픈검색 - 민병국 31

세션수 유일쿼리수 쿼리회수세션당

평균쿼리회수세션당

최대쿼리회수

5/8일자 1,345,501 1,606,571 3,805,716 2.8285 20

5/9일자 1,333,035 1,578,911 3,783,449 2.8382 20

5/10일자 1,291,959 1,484,076 3,711,609 2.8728 20

세션수세션전체비율

유일쿼리수유일쿼리전체비율

세션당평균쿼리회수

세션당최대쿼리회수

5/8일자 295,403 21.95% 156,632 9.75% 1.2788 17

5/9일자 294,027 22.06% 152,674 9.67% 1.2775 19

5/10일자 289,149 22.38% 144,212 9.72% 1.2861 19

Page 32: [2008] 민병국 - 주제검색과 오픈검색 (제안)

통검쿼리 – 확장쿼리사례

[제안서] 주제검색과 오픈검색 - 민병국 32

순서 쿼리

1 곡물

2 곡물가격

3 곡물

4 곡물콘플라이크

5 세계1위곡물수출국

6 세계3위곡물수출국

7 세계4위곡물수출국

8 세계5위곡물수출국

9 세계6위곡물수출국

10 세계7위곡물수출국

11 세계1위곡물수출국

12 세계2위곡물수출국

13 쌀주요수입국현황

14 곡물주요수입국현황

15 곡물주요수입국

16 최근곡물값이치솟은이유

17 네이버

순서 쿼리

1 피자

2 피자헛

3 피자

4 중곡동피자배달

5 군자동피자배달

6 피자119

7 군자동피자집

8 군자역근처피자집

9 군자역근처맛있는피자집

10 군자역근처피자집

11 군자역피자집

12 중곡동피자집

13 군자피자집

14 군자역피자집

15 피자주문

16 새벽2시피자배달

17 피자

순서 쿼리

1 소고기협상의교휸

2 소고기협상의교훈

3 3등급소고기

4 미국호주소고기수입

5 미국은호주소고기수입

6 소고기협상의문제

7 소고기협상내용

8 이정우

9 이정우교수

? 이정우교수 소고기

순서 쿼리

1 광우병

2 광우병증상

3 광우병

4 광우병소

5 광우병

Page 33: [2008] 민병국 - 주제검색과 오픈검색 (제안)

통검쿼리 상위 리뷰(1/2)

2008.5.8일자 1-150위 (40634회~870회)

Kang and Kim 2003 논문: 질의유형에 맞추어 검색효율을 높이려는 연구

[제안서] 주제검색과 오픈검색 - 민병국 33

구분 개수 쿼리

사이트 찾기(네비게이션)

99

네이버 / 사이월드 / 옥션 / 야후 / 국민은행 / 온에어 / g마켓 / 와와디스켓 / 우리은행 / 엣홈 / 더쇼룸 / 파일코리아 / 지마켓 / 신한은행 / 집코리아 / cgv / 인터파크 / 다음 / 네이트 / 구글 / 넷마블 / 이로모 / 네이트온 / 한게임 / 농협인터넷뱅킹 / kbs / 농협 / 세이클럽 / 서든어택 / mbc / 위디스크 / 판도라tv / 엠파스 / 아이템매니아 / 삼성카드 / 던파 / 팍스넷 / 보배드림 / 아이템베이 / 롯데닷컴 / 파란 / 파일노리 / 하나은행 / 대한항공 / 워크넷 / sbs / 신한카드 / 롯데시네마 / 멜론 / 현대카드 / 곰플레이어 / 피망 / 국민은행인터넷뱅킹 / 와우인벤 / 기업은행 / 스포츠조선 / 미래에셋증권 / 다나와 / ktf / 삼성전자 / 버디버디 / 알바몬 / 교보문고 / 외환은행 / 이랜드노동조합 / 이랜드일반노동조합 / 십이지천2 / gs홈쇼핑 / 와우메카 / 현대자동차 / 동양종금 / 메이플스토리 / 판도라 / 아고라 / 조선일보 / 사람인 / 스포츠서울 / 소리바다 / sk텔레콤 / 국세청 / 롯데카드 / 부동산114 / 리니지 / 롯데백화점 / 모키 / 싸이월드미니홈피 / 클럽박스 / t월드 / 홀인원비뇨기과 / 이마트 / 벅스뮤직 / 롯데홈쇼핑 / 신한은행인터넷뱅킹 / 엠파일 / 교차로 / 애니콜 / 벼룩시장

정보찾기(뉴스,질의응답)

26야마다유 / 문지은 / 이명박 / 조경태 / 이명박탄핵 / 지수원 / 광우병 / 오구리순 / 이계진 / 소녀시대 / 박용하 / 후(신인가수) / 빅뱅 / 쇠고기청문회 / 박선주 / 김시향 / 다나카미호 / 화분(알렉스노래) / 송윤아 / 어버이날 / 정운천 / 창업 / 진중권 / 이토히데아키 / 청문회 / 알렉스

트랜잭션(서비스찾기)

25

이명박탄핵서명 / 아이언맨 / 환율 / 지하철노선도 / 스피드레이서 / 옥션정보유출확인방법 / 날씨 / 온에어18회 / 영화 / 100분토론 / 지도 / 웹하드 / 블리치169화 / 로또당첨번호 / stx팬오션 / 삼성중공업 / 아현동마님 / 아빠셋엄마하나 / 일지매 / 너는내운명 / 탄핵서명 / 블리치168화 / 곰플레이어최신버전다운로드 / 우편번호검색 / 로또 /

Page 34: [2008] 민병국 - 주제검색과 오픈검색 (제안)

통검쿼리 상위 리뷰(2/2)

2008.5.8일자 1001-1150위 (194회~176회)

1~150위와 달리 정보찾기의 비율이 높아짐 (다른 분류 쿼리도 정보성을 띰)

[제안서] 주제검색과 오픈검색 - 민병국 34

구분 개수 쿼리

사이트 찾기(네비게이션)

50

이그잼 / 아틀란티카 / 여행박사 / www.naver.com / 뽀람 / 인천공항 / 한메일 / 레포트월드 / 한미르 / 성균관대학교 / 강남구청 / 경희대학교 / 따따따 / 하나은행인터넷뱅킹 / 스포츠토토/ 인터파크티켓예매 / 매일경제신문 / 폴더플러스 / 우체국인터넷뱅킹 / 카스온라인 / 프리챌 / imbc / 라그나로크 / 힌국방송통신대학교 / 노스페이스 / 경남은행 / 매일경제 / 피파 / 텐바이텐 / 게임엔젤 / 농수산홍쇼핑 / 커리어 / tvn / 서프라이즈 / 엄나구모성형외과 / 이랜드복지재단 / 복지넷 / 엽스샵 / 신문 / 바보몰 / 이랜드스토리 / 스킨푸드 / 크레딧뱅크 / 굿모닝신한증권 / 씨네월컴 / slr클럽 / 디그 / 바이크마트 / 영풍문고 / 뮤직온

정보찾기(뉴스,질의응답)

71

고아라폰 / 브라운아이드걸스 / 이랜드프란시아 / 이랜드프란시아가구 / 미쓰라진막말 / 맨유 / 두산베어스 / 최수지 / 뮤 / 가슴확대 / 멘유경기일정 / 맛집 / 여행사 / 어머님은혜 / 한예슬 / 장동건 / 스타킹코니탤벗 / 싸이클론 / 아이팟 / 윤하 / 알렉스신애 / 박명수 / 중고차시세표 / 이계인 / 부산국제모터쇼 / 나비 / 신규폰게임 / 에임하이 / 보건복지부 / 박용하성형전후 / 장나라 / 로체 / 독도 / 서커스mc몽 / 채연 / 뽀로로 / 온에어ost / 이랜드그룹 / 편성표 / 루이비통 / 스승의날 / 김동욱 / 야마시타토모히사 / 전지현 / 자위 / 문국현 / 고전게임 / 모바일게임/ 기숙학원서울대반 / 이랜드상품권 / 자전거 / 기숙학원수능선행반 / 춘자네 / 닌텐도ds게임다운 / 이무송 / 기숙학원연고대반 / 인터넷소설 / 기숙학원재수선행반 / 고용보험 / 김구라 / 의료보험민영화 / 안소희 / 컨버스 / 로버트다우니주니어 / 조경태의원 / 청미 / 이력서 / 이랜드할인매장 / 이랜드월드 / 이랜드지식경영 / 클래지콰이

트랜잭션(서비스찾기)

29

아내의반란 / 시계 / 원피스353화 / 온에어마지막회 / 음악 / 우산(윤하노래) / 삼성테크윈 / 우편번호찾기 / 토토브라우저 / 쥬얼리모두다쉿다운 / 우리결혼했어요다시보기 / 스타크래프트립버전100%다운로드 / 알씨 / 가격비교 / 현대미포조선 / 남자쇼핑몰 / 이승기추억속의그대 / 곰플레이어다운로드 / 가십걸16화 / 춘자네경사났네 / 은혼105화 / 서든어택10킬소리 / 멜랑꼴리 / sg워너비라라라다운 / 데몬 / 색계 / 막돼먹은영애씨시즌3 / 코스피지수 / 색시몽 /

Page 35: [2008] 민병국 - 주제검색과 오픈검색 (제안)

포함쿼리 vs 포함세션

장바구니 범위 정의

특정 키워드를 포함한 쿼리 데이터만 사용?

세션당 평균 쿼리회수: 1.4회

특정 키워드를 포함한 세션내 모든 쿼리 데이터 사용?

세션당 평균 쿼리회수: 2.75회

약 6배 보다 많은 유일쿼리수: 연관단어의 recall 증가

[제안서] 주제검색과 오픈검색 - 민병국 35

키워드 “이명박” 포함쿼리만사용 포함세션내모든쿼리사용

데이터일자 세션수 유일쿼리수 쿼리회수 유일쿼리수 쿼리회수

5/8(목) 13,455 1,877 18,999 12,574 37,145

5/9(금) 11,358 1,667 15,658 10,444 30,762

5/10(토) 8,941 1,481 12,448 9,383 25,167

5/11(일) 6,879 1,175 9,574 7,384 19,065

5/12(월) 7,173 1,394 10,056 7,956 19,914

5/13(화) 6,508 1,309 9,282 7,219 17,788

Page 36: [2008] 민병국 - 주제검색과 오픈검색 (제안)

“이명박”관련 쿼리량 변화 (1~30위)

[제안서] 주제검색과 오픈검색 - 민병국 36

쿼리 세션수 쿼리회수탄핵서명 6868 7094탄핵 2500 2618미니홈피 528 535아고라 486 509탄핵서명조작 356 358아고라탄핵서명 341 348지지율 311 312노무현 268 282아고라탄핵 239 245광우병 232 239네이버 226 226독도 181 216독도포기 186 207탄핵을위한범국민운동본부

193 194

안티카페 167 169되고송 148 163이 153 155탄핵서명사이트 136 143소고기 133 134청와대 124 124싸이월드 117 120안티 112 119조경태 112 116이계진 112 115촛불집회 98 101아고라서명운동 97 99탄핵서명아고라 78 97쇠고기청문회 90 95100분토론 89 90탄핵송 85 85

■ 5/8 (목) 일자데이터 ■ 5/9 (금) 일자데이터 ■ 5/12 (월) 일자데이터

쿼리 세션수 쿼리회수탄핵서명 5835 6051탄핵 1983 2075아고라 586 611아고라탄핵서명 552 566미니홈피 437 444지지율 301 313탄핵서명조작 267 267노무현 214 226광우병 205 217네이버 185 189100분토론 185 188되고송 148 173독도 143 156탄핵을위한범국민운동본부

150 151

이 148 148탄핵서명사이트 124 129청와대 124 126아고라탄핵 122 124촛불집회 122 122안티 108 117독도포기 104 110탄핵서명아고라 85 98소고기 92 92이계진 81 81국회 79 79아고라서명운동 78 79탄핵송 75 79인터넷종량제 72 79오마이뉴스 75 77싸이월드 73 74

쿼리 세션수 쿼리회수탄핵서명 3420 3523탄핵 1186 1242아고라탄핵서명 347 353아고라 323 342미니홈피 309 313지지율 224 231노무현 173 185탄핵서명조작 154 155광우병 125 131네이버 100 102안티 96 99되고송 86 97탄핵서명사이트 80 93국회 83 85독도 75 85탄핵을위한범국민운동본부

77 79

청와대 75 77아고라탄핵 69 72이 66 66박근혜 59 65촛불문화제 59 61독도포기 52 56탄핵송 51 55일지매 51 53싸이월드 47 50pd수첩 41 43문국현탄핵 39 42탄핵서명아고라 38 42안티카페 39 41야후 38 40

탄핵 독도

광우병

지지율

노무현

탄핵서명

소고기

촛불집회

Page 37: [2008] 민병국 - 주제검색과 오픈검색 (제안)

“노무현”관련 쿼리량 변화 (1~30위)

[제안서] 주제검색과 오픈검색 - 민병국 37

쿼리 세션수 쿼리회수이명박 193 207청문회 147 158사람사는세상 146 147이명박탄핵서명 129 133예언 91 93홈페이지 69 70조경태 60 70봉하마을 56 61이명박탄핵 54 55김대중 31 32대통령 27 29미니홈피 28 28탄핵이유 27 275공청문회 25 26청문회전두환 23 25탄핵 22 23이명박지지율 21 23지지율 22 22유시민 22 22노간지 21 22고개숙인 21 21연설 21 21전두환 20 20명패 20 20이라크방문 14 20청와대 19 19네이버 18 19다큐3일 14 18이명박미니홈피 17 17100분토론 17 17

■ 5/8 (목) 일자데이터 ■ 5/9 (금) 일자데이터 ■ 5/12 (월) 일자데이터

쿼리 세션수 쿼리회수이명박 145 160사람사는세상 122 123이명박탄핵서명 108 111예언 103 103홈페이지 83 86봉하마을 46 48청문회 44 44이명박탄핵 34 34조경태 33 34이명박미니홈피 31 32노간지 23 26이명박지지율 25 25김대중 24 25연설 24 25탄핵이유 23 23탄핵 22 23kbs 21 23전두환 20 22쇠고기 20 20미니홈피 20 20광우병 20 20유시민 19 20청와대 19 20청문회전두환 19 19박근혜 18 18독도연설 16 18shangus 17 17봉화마을 14 17조중동 13 17이계진 15 16

쿼리 세션수 쿼리회수사람사는세상 120 124이명박 113 120이명박탄핵서명 103 106예언 53 57홈페이지 52 55봉하마을 50 53김대중 28 29유시민 27 29동영상 25 26전두환 22 25이명박탄핵 23 23이명박미니홈피 21 21탄핵 19 19이해찬 17 18대통령 16 18네이버 17 17박근혜 16 17청문회 16 17청와대 16 17오마이뉴스 16 16연설 16 16미니홈피 15 15shangus 15 15노간지 14 15이명박지지율 14 14노태우 13 14kbs 11 14김영삼 13 13독도연설 12 13광우병 12 13

이명박 사람사는세상

봉하마을

예언

홈페이지

전두환

청문회

노간지

대통령

독도연설

Page 38: [2008] 민병국 - 주제검색과 오픈검색 (제안)

쿼리의 연관단어 리콜 향상

쿼리에 사용된 단어

여러 하부 주제를 포함하는 가장 작은 길이의 단어

전문성 또는 가장 하부주제를 나타내는 특정 단어

단어의 구분

광의의 기본단어

협의의 확장단어

단어의 출처

광의의 기본단어는 여러 문서에 분포되어 있음

협의의 확장단어는 입소문 또는 어떤 문서의 출처를 갖음

쿼리의 연관단어 추출

의미 연결이 끊겨있는 쿼리로만으로는 연관단어 연결 부적절

협의의 확장단어의 출처 문서로부터 쿼리의 연관단어를 연결 수집

빈도가 낮아 연결되지 못하는 단어를 문서로부터 수집

쿼리와 문서를 자동으로 연결해 나가는 과정을 반복하며 구성됨

쿼리의 문서모델과 문서의 쿼리모델을 병합하는 효과

[제안서] 주제검색과 오픈검색 - 민병국 38