49
네비게이션 검색 통합 Project - 기술기획안 검색서비스개발팀 민병국 2009.11.13

네비게이션 검색 통합 - 민병국(2009)

  • Upload
    -

  • View
    215

  • Download
    1

Embed Size (px)

Citation preview

Page 1: 네비게이션 검색 통합 - 민병국(2009)

네비게이션

검색

통합

Project -

기술기획안

검색서비스개발팀

민병국2009.11.13

Page 2: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 2

개념설명

– 융합(Fusion)

cf. 통합(Integration)

Collection Fusion

Data Fusion

웹사이트

Data

웹사이트

Data로컬

Data

로컬

DataMerge

웹사이트

검색엔진

웹사이트

검색엔진로컬

검색엔진

로컬

검색엔진

Mapping

Data

프론트

엔진&UI프론트

엔진&UI

Link

Meta

Data

사용자

컬렉션

배치

- 선택,정렬

컬렉션

연결

-

2단계쿼리

통합DB

-

수작업

-

정확성高

-

비용高

-

범위제한

Vertical

검색

Horizontal

검색Vertical

검색

1

.

검색결과의

의미적

구조화

2

.

검색결과의

선택/정렬

3

.

검색결과의

통합

Page 3: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 3

목차

프로젝트

개요

검색

통합의

목적

통검쿼리

분석

Pilot 1차

버전

리뷰

문제점

토픽맵

소개

모델링

예제

토픽/연계/어커런스, 토픽병합

토픽맵의

검색엔진

적용시

모델

샘플: 삼성전자

Pilot 2차

버전

계획

설계

삼성 1942 기업인 카트 1994 게이머

Page 4: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 4

프로젝트

개요

쿼리

통합

대응

바로가기, 사이트(&디렉토리), 로컬, 웹, 블로그, 카페

중복

검색결과

제거

검색결과

통합

과정에서

중복

URL 제거

검색결과

통합의

의미적

구조화

낮은

수준의

의미적

연결

검색결과의

정확도(Precision) 향상

연관검색

첨가, 스트링

매칭의

매칭

오류

감소

ex) Query ‘훼미리마트’

명가패밀리마트, 모나와

훼미리마트타이쿤

Page 5: 네비게이션 검색 통합 - 민병국(2009)

검색

통합의

방향

• 통합검색쿼리

분석

Page 6: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 6

통검쿼리

상위

리뷰(1/2)

2008.5.8일자

1-150위

(40634회~870회)

논문: 질의유형에

맞추어

검색효율을

높이려는

연구, Kang and Kim, 2003•

쿼리를

3가지

유형으로

분류하여

특성

분석: 네비게이션/정보/트랜잭션

구분 개수 쿼리

사이트

찾기

(네비게이션)

99

네이버 / 사이월드 / 옥션 / 야후 / 국민은행 / 온에어 / g마켓 / 와와디스켓 / 우리은행 / 엣홈

/ 더쇼룸

/ 파일코리아

/ 지마켓

/ 신한은행

/ 집코리아

/ cgv / 인터파크

/ 다음

/ 네이트

/ 구글

/ 넷마블

/ 이로모

/ 네이트온

/ 한게임

/ 농협인터넷뱅킹

/ kbs / 농협

/ 세이클럽

/ 서든어택

/ mbc / 위디스크

/ 판도라tv / 엠파스

/ 아이템매니아

/ 삼성카드

/ 던파

/ 팍스넷

/ 보배드림

/ 아이템베이

/ 롯데닷컴

/ 파란

/ 파일노리

/ 하나은행

/ 대한항공

/ 워크넷

/ sbs / 신한카드

/ 롯데시네마

/ 멜론

/ 현대카드

/ 곰플레이어

/ 피망

/ 국민은행인터넷뱅킹

/ 와우인벤

/ 기업은

/ 스포츠조선

/ 미래에셋증권

/ 다나와

/ ktf / 삼성전자

/ 버디버디

/ 알바몬

/ 교보문고

/ 외

환은행

/ 이랜드노동조합

/ 이랜드일반노동조합

/ 십이지천2 / gs홈쇼핑

/ 와우메카

/ 현대자

동차

/ 동양종금

/ 메이플스토리

/ 판도라

/ 아고라

/ 조선일보

/ 사람인

/ 스포츠서울

/ 소리바

/ sk텔레콤

/ 국세청

/ 롯데카드

/ 부동산114 / 리니지

/ 롯데백화점

/ 모키

/ 싸이월드미니

홈피

/ 클럽박스

/ t월드

/ 홀인원비뇨기과

/ 이마트

/ 벅스뮤직

/ 롯데홈쇼핑

/ 신한은행인터넷

뱅킹

/ 엠파일

/ 교차로

/ 애니콜

/ 벼룩시장

정보

찾기

(뉴스,질의응답)

26야마다유

/ 문지은

/ 이명박

/ 조경태

/ 이명박탄핵

/ 지수원

/ 광우병

/ 오구리순

/ 이계진

/ 소

녀시대

/ 박용하

/ 후(신인가수) / 빅뱅

/ 쇠고기청문회

/ 박선주

/ 김시향

/ 다나카미호

/ 화분

(알렉스노래) / 송윤아

/ 어버이날

/ 정운천

/ 창업

/ 진중권

/ 이토히데아키

/ 청문회

/ 알렉스

서비스

찾기

(트랜잭션)

25

이명박탄핵서명

/ 아이언맨

/ 환율

/ 지하철노선도

/ 스피드레이서

/ 옥션정보유출확인방법

/ 날씨

/ 온에어18회

/ 영화

/ 100분토론

/ 지도

/ 웹하드

/ 블리치169화

/ 로또당첨번호

/ stx팬

오션

/ 삼성중공업

/ 아현동마님

/ 아빠셋엄마하나

/ 일지매

/ 너는내운명

/ 탄핵서명

/ 블리치

168화

/ 곰플레이어최신버전다운로드

/ 우편번호검색

/ 로또

/

Page 7: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 7

쿼리의

목적

– 사이트/정보/서비스

Q:네이버–

사이트

찾기•

Naver 사이트

Naver 하부사이트

NHN 사이트

정보

찾기•

기업개요, 주식시세

백과사전, 위키

사옥위치/지도, 주소

대표전화, 서비스상담

이미지, 동영상CF

뉴스

서비스

찾기•

메일

검색

카페

블로그

미투데이

Q:이효리–

사이트

찾기•

이효리

팬홈페이지

이효리

팬카페

이효리

소속사

사이트

정보

찾기•

프로필, 위키

TV방송, 콘서트, 앨범

사진, 동영상, 음악

뉴스

서비스

찾기•

음악

들어보기

Q:홍대

클럽–

사이트

찾기•

홍대

클럽

사이트

정보

찾기•

홍대지역

클럽위치/지

홍대클럽관련

뉴스

홍대클럽관련

블로그/

후기/추천글

홍대클럽

사진/동영상

홍대클럽

이벤트/공연

서비스

찾기•

홍대

클럽

카페

가입

• “쿼리

is a 주제”인 경우

• 사이트

정보가

(1) 중복없이

(2) 연

관성

있게

정리되어

(3)빠짐없이

력되길

바람. 이런

경우

상하좌우

제로

1 Depth의

의미확장

필요.

• “쿼리

is a 주제”인 경우

• 사이트

정보가

(1) 중복없이

(2) 연

관성

있게

정리되어

(3)빠짐없이

력되길

바람. 이런

경우

상하좌우

제로

1 Depth의

의미확장

필요.

• “쿼리

belongs to 주제”인 경우

• 쿼리에

관한

주제를

가장

많이

있는

사이트를

원함. 불충분한

내용의

사이트는

사양. 예) 이효리가

곁다리로

출연한

가수C양의

콘서트

(x)

• “쿼리

belongs to 주제”인 경우

• 쿼리에

관한

주제를

가장

많이

있는

사이트를

원함. 불충분한

내용의

사이트는

사양. 예) 이효리가

곁다리로

출연한

가수C양의

콘서트

(x)

• “쿼리 locateIn and hasType 주제” 인 경우

• 사이트

정보가

(1) 주제의

속성을

만족하며

(2) 제시된

속성과

연관있

내용만

출력되길

바람, 예) 홍대

아닌

지역의

클럽, 홍대의

술집(x)

• “쿼리 locateIn and hasType 주제” 인 경우

• 사이트

정보가

(1) 주제의

속성을

만족하며

(2) 제시된

속성과

연관있

내용만

출력되길

바람, 예) 홍대

아닌

지역의

클럽, 홍대의

술집(x)

Page 8: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 8

네비게이션

쿼리의

-

범어사

범어사(梵魚寺)

금정산에 있는 절. 678

신라

문무왕

시절에

상에

의해서

지어짐. 후

조계종으로

합쳐진

엄종의

10대

사찰

안에

속했음.

범어사

위치: 부산

금정구

건물: 사찰

종교: 불교

관광지: 보물

정보자원: 블로그/카페/

사진/동영상/사이트

등..

X

X

X

X

Page 9: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 9

사이트

쿼리

통합의

구축

방안

Bottom-up

신규

컬렉션

생성

Top-down

메타

데이터

생성

현행

자원

이용

웹사이트

검색

개편

바로가기

모음

큰걸

바라보면

어떨까??

Page 10: 네비게이션 검색 통합 - 민병국(2009)

Pilot 1차

버전

리뷰

& 문제점

• 1차

기획

내용

• 1차

개발

내용

• 데이터

샘플

• 문제점

Page 11: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 11

Pilot – 1차

버전

– 기획

핵심

아이디어–

노출

타입별

멀티

컬렉션

검색

사이트

통합화면

노출

타입–

기본타입•

대표사이트

+ 하위사이트

바로가기

+ 스폰서링크

+ 사이트

검색포털타입: 네이버, 네이트, 야후, 구글, 빙

등..

대표사이트

+ 하위사이트

바로가기

+ 스폰서링크

+ 사이트

대표번호

타입: 프랜차이즈, 통신사, 금융

등..

대표사이트

+ 전화번호

+ 하위사이트

대표사이트

+ 전화번호

+ 하위사이트

+ 지도(지점안내)

바로가기

+ 스폰서링크

+ 대표사이트

+ 전화번호

+ 하위

사이트

개별전화번호

타입: 대표번호가

없는

경우, 요식업, 학원

등..

대표사이트

+ 하위사이트

+ 지도(지점안내&전화번호)

바로가기

+ 스폰서링크

+ 대표사이트

+ 하위사이트

+ 지도(지점안내&전화번호)

지점

타입: 백화점, 영화관, 마트

등..

대표사이트

+ 하위사이트

+ <숨김/펼침>지점안내

바로가기

+ 스폰서링크

+ 대표사이트

+ 하위사이트

+ <숨김/펼침>지점안내

1:1 타입: 사이트&지역정보가

유일한

쿼리

사이트+지역정보+(길찾기)+(대중교통정보)

동일명칭

사이트

다수

Page 12: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 12

Pilot – 1차

버전

– 개발

1.

쿼리

입력-

등록된

모든

컬렉션에

고정검색

2.

바로가기

검색-

Exact 키워드(자원) 검색

-

siteseq 출력

3.

웹사이트

검색(메타데이터)

-

docid = siteseq 를

검색

-

사이트의

dirseq 출력

4.

디렉토리

검색(연관사이트)

-

dirseq를

통해

같은

트리의

사이

트 검색

: 내부(하위) 또는

연관

: <dirseq>&<키워드> 조건검색

-

다수의

docid 출력

5.

메타데이터로

추가

검색-

로컬

대상

‘키워드’

검색

6.

검색결과

통합

UI 포장

출력-

랭킹

없음

10.31.254.121

(웹서버/Python)

10.10.40.246

(웹서버/Python)

바로가기

(10.30.40.172)

2웹사이트

(10.20.253.180)

3디렉토리

(211.115.77.9)

4

로컬

+ etc

5

통합검색결과

querysiteseq

docid

dirseq

dirseq

docid

비고: 빨간네모는

입력, 파란네모는

출력을

의미

점선은

Request(요청), 실선은

Response(응답)을

의미

1

6Pilot-1차

버전

검색

Flow

Page 13: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 13

Talkro Schema – 웹사이트^[START]^[path_dir_rank] 4907 318 35 2^[issue_score] 10337789^[recommand_yn] N^[new_yn] N^[rank_score_rank] 11071^[popular_star_count] 1^[siteurl1_hilight] http://www.dell.co.kr/^[siteurl1_disp] http://www.dell.co.kr/^[idpath] 110 164 126 199386^[dirseq] 199386^[history_yn] Y^[clickkeyvalue]

dell%5.0491 dellcomputer%0.6376 delllaptop%0.1952 dellpc%0.9299

dellserver%1.3823 dell노트북%3.8187 dell서

버%2.6518 dell워크스테이션%1.0196 dell컴퓨터%4.4954 workstation%0.3224 workstation노트북%0.0564 www.dell.co.kr%0.1723 노트북델%1.3202 노트북워크스테이션%0.3612 델%5.111 델pc%1.4088 델노트북%3.2425 델서

버%1.1732 델서버컴퓨터%0.0246 델서버판매%0.3189 델워크스테이션%0.5552 델컴퓨터%6.4329 ((중략)) ^[path_ko_title] 비즈니스, 쇼핑^컴퓨터, 인터넷^하드웨어^델

컴퓨터^[detail_dead_yn] Y^N^[siteurl1_link] http://www.dell.co.kr/^[week_uv] 5213^[hiddentitle_index] dell|dellcomputer|dell노트북|dell컴퓨터|델|델pc|델노트북|한국델컴퓨터|^[clickkey] dell dellcomputer delllaptop dellpc dellserver dell노트북

dell서버

dell워크스테이션

dell컴퓨터

workstation workstation노트

www.dell.co.kr 노트북델

노트북워크스테이션

델pc 델노트북

델서버

델서버컴퓨터

델서버판매

델워크스테이션

델컴퓨터

((중

략))^[manualkey] 미니넷북^[sitedesc] 데스크탑, 미니

노트북, 넷북, 워크스테이션, 서버, 스토리지, PC 판매.^[fchar_eng] 0델컴퓨터^[sitetitle_index] 델컴퓨터^[rank_score] 475.415633097346^[manualkeyvalue] 미니넷북%3^[official_yn] N^[url_name] dell dell.co.kr www.dell.co.kr http://www.dell.co.kr

http://www.dell.co.kr/ http://www.dell.co.kr http://www.dell.co.kr/^[sitetitle_load] 델컴퓨터^[siteseq] 588427^[localmap_yn_locate_xy] N^[rank_score_rank_variation] 2527^[dirflag] 0^[END]

1 1 keyword[0] 델컴퓨터

& title[0] 델컴퓨터

& url[0] http://www.dell.co.kr/ & linkurl[0] http://www.dell.co.kr/ & siteseq[0] 588427

&

<< 바로가기 >>

Page 14: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 14

Talkro Schema – 디렉토리^[start]^[dirseq] 199386^[kotitle_index] 델

컴퓨터^[kotitle_rank] 델컴퓨터^[entitle] Dell Computer^[keyword] dell컴퓨터^[adult_yn] N^[dir_cnt] 0^[site_cnt] 3^[site_dir_cnt] 3^[manualkey]^[manualkeyvalue]^[path_dirseq] 110 164 126 199386^[path_kotitle] 비즈니스, 쇼핑|컴퓨터, 인터넷|하드웨어|델

컴퓨터^[path_entitle] Business_Shopping|Computers_Internet|Hardware|Dell_Computer^[shortpath_dirseq] 164 126 199386^[shortpath_kotitle] 컴퓨터, 인터넷|하드웨어|델

컴퓨터^[rank_score_sum] 139387^[dir_level] 4^[end]

바로가기바로가기

웹사이트웹사이트

디렉토리디렉토리

로컬로컬

siteseq

dirseq

키워드

<< ‘델컴퓨터’

연결구조

>>

※ 스트링매칭의

검색

이라

무엇이 나올지

장할

없다.

※ 고정된 id로

보장된

결과가

나오지만

연결

구조가

주제별로

기준

이질적이거나

짬뽕.

Page 15: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 15

Talkro Schema – 로컬^[START]^[DOCID] P782652^[NEW_DOCID] 9728531^[CORP_O_INDEX] 델컴퓨터코리아(주)^[CORP_NS_INDEX1] 델컴퓨터코리아(주)^[CORP_NS_INDEX2] 델컴퓨터코리아(주)^[CORP_SYN_INDEX]^[MANUAL_KEYWORD]^[CORP_NS_LEN] 26^[HOMEPAGE]^[POINT_X] 506675^[POINT_Y] 1107648^[ADDRESS] 서울 서초구 서초동

1339-9^[HOUSE_M_YN] N^[HOUSE_NUM1] 1339^[HOUSE_NUM1_SORT] 1339^[HOUSE_NUM2] 9^[ZIPCODE] 137-070^[PHONE_DISPLAY] 02-2194-6000^[PHONE_INDEX] 02-2194-6000,2194-6000^[PHONE_SYN_DISPLAY]^[PHONE_SYN_INDEX]^[PHONE_YN] Y^[LCODE_DEPTH1] II^[LCODE_DEPTH2] I1014^[LCODE_DEPTH3] I10140300^[LNAME_DEPTH1] 서울^[LNAME_DEPTH2] 서초구^[LNAME_DEPTH3] 서초동^[LNAME_DEPTH2_UP]^[LNAME_DEPTH3_UP] 서초동^[CATE_ID_DEPTH1] 7^[CATE_ID_DEPTH2] 147^[CATE_ID_DEPTH3] 215^[CATE_NAME_DEPTH1] 서비스,산업^[CATE_NAME_DEPTH2] 정보통신,IT^[CATE_NAME_DEPTH3] 소프트웨어^[CATE_SYN_DEPTH1] C7; 서비스,산업; 기타업종; 기타업종일반; 서비스; 산업;^[CATE_SYN_DEPTH2] C147; 정보통신,IT; 정보통신; IT;^[CATE_SYN_DEPTH3] C215; 소프트웨어; 그래픽; CAD; CAM; 캐드; 캠; CAD학원; 맥스; 맥스학원;

캐드전문학원; 캐드학원; 비즈니스소프트웨어; 경영소프트웨어; 소프트웨어; 소프트웨어개발; 소프트웨어게임판매; 전산개발; 프로그램개발; 회계소프트웨어; 재무소프트웨어;

.. (( 계속

)) ..

^[LAST_CATE_DEPTH] 3

^[LAST_CATE_ID] 215

^[LAST_CATE_NAME] 소프트웨어

^[CP] P

^[SOURCE] koid

^[SOURCE_ID]

^[THUMNAIL]

^[TVSHOW_NAME]

^[TVSHOW_ID]

^[STAR] 0

^[COUNT_RATING] 0

^[COMMENT]

^[REPLY_CONTENTS]

^[REPLY_COUNT] 0

^[REVIEW_ID]

^[REVIEW_CONTENTS]

^[REVIEW_URL]

^[REVIEW_COUNT] 0

^[BLOG_REVIEW_COUNT] 0

^[COUNT_READ] 219

^[PHOTO_COUNT] 0

^[REP_MENU]

^[PRICE]

^[PRICE_ID]

^[PRICE_1] 0

^[PRICE_2] 0

^[PRICE_3] 0

^[BRAND]

^[MODDTTM] 20090918201336

^[LOCAL_PRIORITY] 1

^[DOC_PRIORITY] B

^[SP_CATEGORY_YN] N

^[CORP_SCORE] 100199

^[ADULT_FLAG] 0

^[THUMNAIL_YN] N

^[END]

델컴퓨터코리아㈜델컴퓨터코리아㈜

델컴퓨터-강원.원주델컴퓨터-강원.원주

델컴퓨터-충북.진천델컴퓨터-충북.진천

델컴퓨터-경기.안양델컴퓨터-경기.안양

델컴퓨터제천OA전산

-충북.제천

델컴퓨터제천OA전산

-충북.제천

델컴퓨터-충북.제천델컴퓨터-충북.제천

델컴퓨터장락점-충북.제천델컴퓨터장락점-충북.제천

델컴퓨터코리아A/S(서비스)델컴퓨터코리아A/S(서비스)

<< 1-Level 트리 구조

>>

Page 16: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 16

Pilot – 1차

버전

– 문제점

빈약한

랭킹요소

사이트

키워드, 사이트

랭킹

데이터

구조

중심의

검색

결과

사용자 관심 중심 필요

바로가기/사이트/지역정보

개별적인

랭킹과

관심사항이

다름

통합된

관점에서의

랭킹

필요

ex) 훼미리마트

vs 명가

훼미리마트, 모나와

훼미리마트타이쿤

메타데이터의

불완전성

DirSeq가

서로

다른

기준으로

분류되어

있음

ex) 훼미리마트

편의점

vs 삼성전자

서비스센터

삼성전자

ID 방식의

연결값이

없으면

스트링매칭이

되어

불완전

검색

노출

데이터

가공비용

siteseq(=docid), dirseq 등

필드의

명칭과

값범위, 값기준이

다름

새로운

연결관계를

문서데이터

상에서

구축시

문서크기에

비용

비례

Page 17: 네비게이션 검색 통합 - 민병국(2009)

토픽맵

소개

검색엔진으로의

적용

• 토픽맵

개념

• 토픽/연계/어커런스

• 토픽맵

병합

• 토픽맵

데이터모델

• 검색엔진

적용방안

초간단

버전

Page 18: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 18

지식층

정보층

토픽맵

– ISO국제표준

지식표현모델

이중구조–

지식층(Knowledge Layer)

지식의

구조

표현

정보층(Information Layer)

지식의

구조와

연관된

컨텐츠의

위치

정보

구성요소–

토픽(Topic)•

Type, Name

어커런스(Occurrence)•

Type, Name

관계(Association)•

Type

박유전

서편제 동편제

순창

wasBorn

doSinging

doSinging

이미지

웹문서

DB자료

뉴스

동영상

이미지

음악

지도

Page 19: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 19

토픽맵

– 개요(1)

토픽(Topic)

주제

혹은

개념을

표현

(기존

분류체계의

subject와

유사)

하나의

이상의

이름

부여

가능

base name, display name, sort name

토픽

타입(Type): 유사

의미를

갖는

인스턴스들을

묶는

역할

토픽

is-a 토픽타입: 토픽타입은

토픽(instance)의

클래스(class)

ex) ‘범어사’의

토픽타입

건물, 지명, 사진, 웹사이트, 전화번호, 지도

어커런스(Occurrence)

토픽의

관점에서

토픽에

해당하는

자원을

연결

ex) ‘범어사’: 문서(리뷰/블로그/카페글), 이미지, 지도

썸네일: http://imgsrc.search.daum-img.net/special_search/special/0711/071109212606_2

URL: http://www.beomeosa.co.kr

Daum지도: http://local.daum.net/place/place_view.daum?place_id=P38909

블로그(리뷰): http://www.internetmap.kr/1122

Page 20: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 20

토픽맵

– 개요(2)

연계(Association)–

토픽과

토픽을

연결시켜

주는

관계를

표현

토픽맵

형성

어떤

토픽

간의

관계도

설정할

있음•

cf. 시소러스: BT(상위),RT(연관),NT(하위)

의미확장

ex) 삼성전자

<가전제품/브랜드> -

애니콜, 하우젠, 지펠

다음

-

<웹서비스/내부사이트> -

TV팟, 뉴스, 카페, 검색

cf. 다음

-

<null> -

다음소프트: Empty Assoication(Wrong!!)

토픽맵의

병합(Merge)

토픽맵

간의

의미

분석

결과에

따라

매핑률(%)을

적용함으로써

유사한

토픽들을

병합

(토픽맵의

병합/토픽의

병합)

병합규칙: 주제

식별자가

같거나

룰(rule)을

따르면

토픽을

병합(중복제거)

rule: IF title(토픽A) = title(토픽B) or url(토픽A) = url(토픽B) then

mergeMap(토픽A,토픽B)

ex) IF url(삼성전자@사이트) = url(삼성전자@웹문서) then mergeMap(삼성전자)

XML 기반의

토픽맵은

추론이

가능: 연계에

의한

토픽

탐색

cf. 일반

검색엔진에서

토픽

탐색은

구조적으로

1-Level 만

가능(제한사항)

검색엔진에

적합한

모델링

필요

Page 21: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 21

토픽맵

– 기술언어

XTM

Page 22: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 22

토픽맵

– 데이터모델

예제

보건산업기술분류체계의

토픽맵

명세서

설계

<논문> 효율적

지식공유를

위한

토픽맵

기반의

지식맵

서비스

모형

개발, pp.89-90

Type Description

Business Reference Model

보건복지분야의

정부기능분류모델. 상하/하위

레벨관계는

PartOf으로

함.

Department 행정부처

Health Industry Technology Classification

보건산업기술분류체계

Knowledge Document

업무지식의

지식표현. 더블린코어의

데이터

요소를

어커런스로

정의함.

Language 업무지식의

언어

형태를

표현

Team 행정부처의

부서

Person Team의

구성원

Rights 업무지식의

권한관리를

표현

Type Description

Belongs to 보건산업기술분류체계와

업무지식과의

관계

Has language 업무지식과

언어와의

상관관계를

표현

Has right 업무지식과

권한관계를

설명

Has role 정의된

연계에

대한

토픽간의

관계를

정의

Has type 업무지식의

형태와의

관계를

정의

Is Conducted by 구성원과

정부기능분류모델의

수행관계

표현

Is Controlled by 정부기능분류모델을

컨트롤

함.

Is Produced by 구성원에

의한

업무지식

생성관계를

정의

Is Published by 업무지식의

출처

관계를

정의

Is Managed by 정부기능분류체계의

관계를

정의

Superclass/subclass Superclass/subclass

works in works in

Type DataType Size Description

Title String 50 표제

Subject String 50 주제

description String 50 설명

Relation String 50 관계

Coverage String 50 내용범위

Identifier String 50 식별자

Publisher String 50 발행처

Source String 50 출처

Language String 50 언어

Creator String 50 제작자

Contributor String 50 기타제작자

Right String 50 권한관리

Type String 50 자료유형

Format String 50 표현양식

Date Date date Date

Occurrence Type 명세서

Topic Type 명세서

Association Type 명세서

Page 23: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 23

쿼리

– 주제(Topic) – 문서

2-Phase 검색

구조

1단계: 토픽맵검색

TopicType: 토픽맵

범위

Association: 연계토픽

한정자(토픽맵)

Occurrence: 문서집합

한정자(토픽)

2단계: 컬렉션별

문서검색

기존

검색: 키워드

+ 조건

랭킹요소

로그/Hit

쿼리와

토픽이

가까운

정도를

클릭비

율로

반영

UserAct_Tag%가중치

방식

필드/태그

양질의

문서가

주어진

토픽에

얼마나

충실한가를

반영

만족되는

필드의

수와

필드별

검색

확도

AssociationAssociation

OccurrenceOccurrence

로그/Hit

필드/태그

<랭킹요소>

<랭킹요소>

바로가기, 웹사이트

(디렉토리), 로컬, 블

로그, 카페

Page 24: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 24

지식표현모델

– 시소러스

vs 토픽맵

토픽(Topic)–

삼성전자

삼성전자

다운로드센터

삼성전자

서비스센터

삼성전자

반도체

애니콜

지펠

하우젠

관계(Association): 시소러스

연관

사이트(&동의/유사)

하위

사이트(좁은)

상위

사이트(넓은)

대상물(Occurrence)–

URL

컬렉션

문서

URL•

바로가기, 사이트, 로컬

웹문서

블로그, 카페명

삼성전자

삼성전자

서비스센터

삼성전자

반도체

애니콜

삼성전자

다운로드센터

http://삼성전자

URL

지펠 하우젠

http://삼성전자/다운로드센터

http://삼성전자-서비스센터

http://애니콜

http://지펠

http://하우젠

http://삼성전자-반도체

URL URL URL URL URL URL

사이트

로컬

웹문서

바로가기

블로그

카페

RT

NT

BT

RT

NTBT

토픽타입: 사이트

Page 25: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 25

웹사이트

토픽타입

– 초간단

버전의

토픽맵

삼성전자–

토픽Type: web (※전체Type: web/person/place/brand/group)

연계Type•

<web> super/sub–

Topic of sub(삼성전자): 삼성전자

다운로드센터, 삼성전자

서비스센터

<brand> product/maker–

Topic of product(삼성전자): 삼성전자

반도체, 애니콜, 지펠, 하우젠

<person> actor–

Topic of actor(삼성전자): 이건희(삼성), 이재용(삼성), cf. ‘이부진’(장녀) –

‘이건희’와만 관계 있음

<place> head/branch–

Topic of head(삼성전자): 삼성전자본사(강남역)

Topic of branch(삼성전자): 삼성전자

서비스센터(…), 삼성플라자(…)

어커런스Type•

컬렉션_쿼리URL: 하나

이상

이상

가능–

이건희 인물^http://search.daum.net/search?w=tot&q=%B1%E2%BE%F7%C0%CE%20%C0%CC%B0%C7%C8%F1&ppkey=25368

삼성전자

사이트^http://search.daum.net/search?w=dir&m=site&lpp=10&q=%BB%EF%BC%BA%C0%FC%C0%DA

연관태그: 연결되는

토픽, ex) tag(이건희) 삼성%.99,기업가%.56,1942생%.35

topicID, 썸네일, 명칭_display, 명칭_base, 명칭_sort

삼성전자 web sub 삼성전자

다운로드센터

삼성전자 web sub 삼성전자

서비스센터

삼성전자 web product 삼성전자

반도체

삼성전자 web product 애니콜

web

web

brand

brand

삼성전자 web actor 이건희person

토픽_p p_Typ ass 토픽_nn_Typ

<< association 검색 >>

삼성전자

애니콜

s서비스

삼성본사

이건희

tBase

113113

113114

113115

113116

113117

tID

전자, 대기업

삼성전자, 핸드폰

삼성전자, 서비스센터

서울

서초구, 강남역

삼성, 기업가, 1942생

tAss

web

brand

web

place

person

tTyp

사이트_http://..

tLink

사이트_http://..

사이트_http://..

로컬_http://..

인물_http://..

<< topic 검색 >>

Page 26: 네비게이션 검색 통합 - 민병국(2009)

Pilot 2차

버전

설계

& 개발

계획

• Pilot 2차

개발범위

• Pilot 2차

버전의

동작

Flow

• 랭킹요소

로그, 태그

Page 27: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 27

개발범위

Task1: View 파트–

쿼리별

토픽타입

설정

토픽타입별

출력

Template

노출대상의

조정

정책•

ex) ‘인물’

쿼리Type에서

로컬은

1개, 또는

정확도

0.9점

이상만

출력

Task2: Control 파트–

2 Phase Retrieval 로직

구현

검색결과

중복제거

랭킹: 클릭점수

+ 태그매칭점수

Task3: Model 파트–

Topic, Association, Occurrence 타입

설계

초기

토픽맵으로

스키마

구성

검색엔진

설치

태그/링크

이터

수동구축

검색결과

UI

& 토픽타입

설정

토픽맵

데이터

모델링

& 태그/링크

수동구축

2PR 통합랭킹

& 중복제거

+ 토픽타입별

기획요소

토픽타입별

기획요소

+ 텍스트마이닝

(자동태깅)

텍스트마이닝

(자동태깅)

+ 쿼리

주제연관도

(로그분석)

쿼리

주제연관도

(로그분석)

Task: 1

Task: 3

Task: 2

Page 28: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 28

Pilot – 2차

버전

– 토픽맵

검색

1.

쿼리

입력

2.

토픽맵

검색(메타데이터,clues)

3.

웹사이트

검색

4.

디렉토리

검색

5.

로컬

검색

6.

검색결과

통합

UI 포장

출력-

중복결과

제거

-

통합랭킹

적용

-

토픽타입별

노출

Template

10.31.254.121

(웹서버/Python)

10.10.40.246

(웹서버/Python)

웹사이트

(10.20.253.180)

3디렉토리

(211.115.77.9)

4로컬

(spb-local-idx01)

5

토픽맵

검색

2

통합검색결과

비고: 빨간네모는

실제데이터, 파란네모는

메타데이터를

의미

점선은

Request(요청), 실선은

Response(응답)을

의미

1

6Pilot-2차

버전

검색

Flow

토픽Type결정

(Template)

컬렉션

쿼리 Template

확장쿼리용

clues

토픽

병합(rule)

&중복제거

Assocation 조건을

만족시키는

Occurrencs만 검색

Page 29: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 29

Pilot – 2차

– Data Flow

web_삼성전자

wiki_삼성전자

sub사이트 브랜드사이트

person

_이건희

로컬

_본사

로컬_지점

(서비스/플라자)

삼성전자 web sub 삼성전자

다운로드센터

삼성전자 web sub 삼성전자

서비스센터

삼성전자 web product 삼성전자

반도체

삼성전자 web product 애니콜

web

web

brand

brand

삼성전자 web actor 이건희person

토픽_p p_Typ ass 토픽_nn_Typ

<< association 검색 >>

삼성전자

애니콜

s서비스

삼성본사

이건희

tBase

113113

113114

113115

113116

113117

tID

전자, 대기업

삼성전자, 핸드폰

삼성전자, 서비스센터

서울

서초구, 강남역

삼성, 기업가, 1942생

tAss

web

brand

web

place

person

tTyp

사이트_http://..

tLink

사이트_http://..

사이트_http://..

로컬_http://..

인물_http://..

<< topic 검색 >>

토픽맵

검색

& 중복제거

사이트

컬렉션

사이트

컬렉션

로컬

컬렉션

로컬

컬렉션

블로그

컬렉션

블로그

컬렉션

카페

컬렉션

카페

컬렉션

토픽Type별

Template

& 노출정책

네비게이션 검색

통합

결과

tLink

tLinktLink

tLink

Page 30: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 30

자동태깅

– 방법1: 쿼리로그를

이용한

매칭

문서에

Hit 된

상위비율의

쿼리를

UserAct_Tag로

배정

ex) 카페명, 웹사이트

WeightedSumCafe

: 101.026848

SCORE_CAFE

: 0.847400

RANK_KCAFE

: 0.017986

SCORE_SPAM

: 0.000000

COUNT_MEMBER

: 42548

REGDT

: 20031229

DOCID

: j9zS

TITLE_INDEX

: 효리투게더

TITLE_NGRAM

: 효리

리투

투게

게더

효리투

리투게

투게더

효리투게

리투게더

효리투게더

RANK_CAFE

: 141

ADMINTAG_TAB

: 이효리

USERTAG_TAB

: 이효리

효리

효리투게더

이효리앨범

패떴

패밀리가떴다

순창고추장

처음처럼

중국현대자동차

인터파크

USERACT_TAB : 이효리팬카페

USER_SCORE : 효리투게더%.874469 이효리%.496596 효

리%.380031 이효리팬카페%.186413 패밀리가떴다%.13245

USERTAG_MI

: 처음처럼%.5631256 효리%.5273429 이효

리%.4691802 패밀리가떴다%.4650547 순창고추

장%.3671090 효리투게더%.3278147 인터파크%.3276483 패떴%.3069022

GRP_CODE

: hyolee79

<< 카페명 문서 >><< 쿼리

-

키워드

>>

<< 클릭 –

로그 >>

(키워드-사이트별

선호비율)

Page 31: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 31

자동태깅

– 방법2: 문서내

단어클러스터링

실험데이터: 네이버

사이트

Description내

단어

단어군

상위

10,000개 선정 (최상위

빈도

30개 단어 제외)

동시출현

단어쌍

개수: 2,276,992

자동차

기아자동차

명차

기아

대우자동차

마티즈

칼로스

차량관리

신차

보트

비행기

헬기

rc

프라모델

모형

요금표

장기대여

차종

고속도로

편의시설

휴게소

도로안내

휴식공간

고무부품

부품

joint

hose

서스펜션

배기

튜닝

에어댐

시트

타이어

경정비

구조변경

Density=6.4030

Density=6.6675

Density=7.0744

Density=4.1253

Density=2.0325

Density=1.5840

※참조: 민병국-석사논문-2007년-단어연관그래프&단어클러스터링

Page 32: 네비게이션 검색 통합 - 민병국(2009)

Pilot 2차

개발

계획서

• 관련사례

• 관련연구

• 참고논문

Page 33: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 33

Pilot 2차

– 시스템

구조도

통검플랫폼

쿼리타입별

UI Template

검색결과

XML Data

2-1. 대상 쿼리 선정

2-2. 출력 형태 기획

통합랭킹/중복제거

<request> HTTP, GET <= 쿼리

<response> HTTP, XML

토픽맵DB

질의&분석

컬렉션별

질의&병합

토픽맵

검색엔진

버클리

DB & XML

버클리

DB & XML

5-1. 모델링 요소

웹사이트 로컬 그밖에

컬렉션5-2. 데이터 구축

1. 통검플

작업

3. 필터링/랭킹

4. 주제연관도

<request> HTTP, GET

<response> HTTP, XML

<request> HTTP, GET

<response> HTTP, XML

MOA-1 시스템

MOA-2 시스템

Page 34: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 34

Pilot 2차

– 작업

사항

1.

통검플랫폼팀

작업

[1] 테스트

통검포맷

UI 입히기

담당: 통검플랫폼팀

1인

2.

통검기획팀

작업

[2-1] 개발대상

쿼리

선정

[2-2] 쿼리타입별

검색결과

Template(항목/배치) 디자인

담당: 통검기획팀

1인

3.

검색서비스개발팀

작업

[3] MOA-1 시스템: 2단계

통합검색, 랭킹, 필터링, 중복제거

기존

Pilot-1 코드

이용

+ 추가

작업

[4] MOA-2 시스템: XML 기반의

토픽맵

엔진

SSE 이용

+ 링크탐색로직

작업

[5] 토픽맵

모델링

데이터

구축

담당: 검색서비스개발팀

3인

지정된

담당자: [3]김성덕, [5]민병국

Page 35: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 35

Pilot 2차

– 개발

방법론

XP 개발

방법론

기획/설계-코딩의

Pair Programming

스토리카드의

은유적

서술

스파이크

메일/게시판

개발작업

테스트

위주의

개발(TDD)

짧은

릴리즈

반복적

개발

기술기획/스파이크기술/

테스트설계

코드작성

/테스트

확인테스트/추가요구기술

코드작성/

병합/테스트

필요시

분업

/모듈코딩

Next 기술기획

확인테스트/릴리즈 개발중심/빠른릴리즈(2~3일)

반복

Page 36: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 36

토픽맵

설계

– ex) 삼성전자

토픽/어커런스

관계

(연관성)

토픽맵

(토픽+관계)

Page 37: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 37

Pilot 2차

– MOA-1 필터링/랭킹

로직

1.

컬렉션별

검색

(r_size만큼)

2.

컬렉션별

기준으로

문서의

rankScore 계산

(assAnd, AssOr)

3.

컬렉션별로

문서를

정렬

짜르기

(w_size만큼)

4.

모든

컬렉션

문서를

합친

중복제거

(sortName 우선순위)

5.

전체를

대상으로

다시

rankScore 기준으로

정렬

6.

통합랭킹 XML 포맷으로 출력

쿼리

입력

Default 검색

(사이트중심)

토픽

검색

Default 검색

(로컬중심)

TopicMap 검색

(메타데이터)

dom-moa.py

/sax-moa.py

dom-type1.py

바로가기,사이트

웹문서

dom-type2.py

바로가기,로컬

사이트

exist not exist

Page 38: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 38

통합랭킹

XML 포맷

– 구조형/리스트형

구조형 리스트형

Page 39: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 39

topicmap result – 수작업

샘플

Page 40: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 40

default topic – TYPE1(사이트중심)

Page 41: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 41

default topic – TYPE2(로컬중심)

Page 42: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 42

여기까지…

들어

주셔서

감사해

요 ^^

Page 43: 네비게이션 검색 통합 - 민병국(2009)

참고자료

– 주제검색 관련 사례

• 관련사례

• 관련연구

• 참고논문

Page 44: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 44

참고: 네이트

-

한장검색

Qry: 몰디브여행

http://search.nate.com/search/all.html?z=A&s=&tq=&sc=&afc=&q=%B8%F4%B5%F0%BA%EA%BF%A9%C7%E0

• 몰디브

+-

지도(위치)

+-

여행Q&A

+-

항공권예약

+-

환율계산

+-

여행

+-

명소

+-

후기

+-

숙소

+-

음식

+-

사진

• 추천여행

• 스폰서링크

Page 45: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 45

참고: 구글

-

토픽검색

Qry: 이영애

http://www.google.co.kr/topicsearch?q=이영애&hl=ko&btnG=토픽+검색

• 이영애

+-

귀국

+-

결혼식, 목격

+-

신랑, 남편

+-

대장금

+-

미국, 영어

Page 46: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 46

참고: 강남구청

-

추론검색

혼인

민원안내

혼인신고

혼인취소

민원서식

민원FAQ

담당업무

공통–

담당자, 전화번호

동사무서별–

개포3동, 대치1동, 도곡2동

담당부서별–

민원여권과

Page 47: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 47

참고: 다음

-

영화검색

Qry: 지아이조

http://movie.daum.net/search.do?type=all&q=지아이조

• 지아이조

+-

영화

+-

이미지

+-

동영상

+-

뉴스&매거진

+-

네티즌리뷰

+-

게시판

Page 48: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 48

관련연구: 용어

상하위

관계

자동구축

방안

온톨로지의

구축과

학습: 상하위

관계

용어의

전문성: Spec(t|D)

가정: 어떤

용어가

도메인

전문적인

정보를

많이

포함하고

있을

전문성이

높고, 반대로

일상적인

용어일수록

전문성이

낮다

용어의

정의

X = Y + 차별적

의미특징

…(ISO 704)

X: 정의될

용어, Y: X에

대한

상위개념

전문성 Spec(t|D)를 용어 t가 관찰되는 사건 x의 정보량 I(x)로 표현

D는

t의

도메인

용어간

의미

유사도

용어의

특징

집합

사이의

포함

관계의

정도를

정량적으로

표현한

특징

집합의

일치관계, 포함관계, 부분일치

관계, 불포함

관계를

표현

계층구조

구축

용어

t1, t2에서

Spec(t1|D) < Spec(t2|D) 일

때, 용어

t1을

용어

t2의

상위관계로

배치

)(log)()|( xpxIDtSpec

<논문> Measuring the Specificity of Terms for Automatic Hierarchy Construction, Pum-Mo Ryu & Key-Sun Choi (2004)

Page 49: 네비게이션 검색 통합 - 민병국(2009)

2009-11-13 네비게이션검색통합 - Pilot 기술문서 49

참고논문

개념적

맵들의

특성분석을

통한

스토리텔링의

시각화에

관한

연구

이지수(2008)

효율적

지식공유를

위한

토픽맵

기반의

지식맵

서비스

모형

개발

김성현(2006)

토픽맵을

이용한

시소러스의

구조화

연구

남영준(2005)

시소러스와

토픽맵의

연관성

연구

남영준(2005)

토픽맵

기반의

기록정보

검색시스템

구축에

관한

연구

권창호(2009)

The TAO of Topic Maps –

Steve Pepper(2000)

XML Topic Maps and Semantic Web Mining –

Benedicte Le Grand, Michel Soto(2001)

Ontology driven websites with Topic Maps TUTORIAL –

Jose Carlos Ramalho, Giovani Rubert Librelotto, Pedro Rangel Henriques(2003)

Tontology-driven topic maps –

Bernard Vatant(2003)

온톨로지

언어의

비교

연구: W3C OWL과

ISO 토픽맵을

중심으로

오삼균(2004)