Upload
-
View
215
Download
1
Embed Size (px)
Citation preview
네비게이션
검색
통합
Project -
기술기획안
검색서비스개발팀
민병국2009.11.13
2009-11-13 네비게이션검색통합 - Pilot 기술문서 2
개념설명
– 융합(Fusion)
cf. 통합(Integration)
•
Collection Fusion
•
Data Fusion
웹사이트
Data
웹사이트
Data로컬
Data
로컬
DataMerge
웹사이트
검색엔진
웹사이트
검색엔진로컬
검색엔진
로컬
검색엔진
Mapping
Data
프론트
엔진&UI프론트
엔진&UI
Link
Meta
Data
사용자
컬렉션
배치
- 선택,정렬
컬렉션
연결
-
2단계쿼리
통합DB
-
수작업
-
정확성高
-
비용高
-
범위제한
Vertical
검색
Horizontal
검색Vertical
검색
1
.
검색결과의
의미적
구조화
2
.
검색결과의
선택/정렬
3
.
검색결과의
통합
2009-11-13 네비게이션검색통합 - Pilot 기술문서 3
목차
•
프로젝트
개요
•
검색
통합의
목적
–
통검쿼리
분석
•
Pilot 1차
버전
리뷰
및
문제점
•
토픽맵
소개
및
모델링
예제
–
토픽/연계/어커런스, 토픽병합
–
토픽맵의
검색엔진
적용시
모델
샘플: 삼성전자
•
Pilot 2차
버전
계획
및
설계
삼성 1942 기업인 카트 1994 게이머
2009-11-13 네비게이션검색통합 - Pilot 기술문서 4
프로젝트
개요
•
쿼리
통합
대응
–
바로가기, 사이트(&디렉토리), 로컬, 웹, 블로그, 카페
•
중복
검색결과
제거
–
검색결과
통합
과정에서
중복
URL 제거
•
검색결과
통합의
의미적
구조화
–
낮은
수준의
의미적
연결
•
검색결과의
정확도(Precision) 향상
–
연관검색
첨가, 스트링
매칭의
매칭
오류
감소
ex) Query ‘훼미리마트’
명가패밀리마트, 모나와
훼미리마트타이쿤
검색
통합의
방향
• 통합검색쿼리
분석
2009-11-13 네비게이션검색통합 - Pilot 기술문서 6
통검쿼리
상위
리뷰(1/2)
•
2008.5.8일자
1-150위
(40634회~870회)
–
논문: 질의유형에
맞추어
검색효율을
높이려는
연구, Kang and Kim, 2003•
쿼리를
3가지
유형으로
분류하여
특성
분석: 네비게이션/정보/트랜잭션
구분 개수 쿼리
사이트
찾기
(네비게이션)
99
네이버 / 사이월드 / 옥션 / 야후 / 국민은행 / 온에어 / g마켓 / 와와디스켓 / 우리은행 / 엣홈
/ 더쇼룸
/ 파일코리아
/ 지마켓
/ 신한은행
/ 집코리아
/ cgv / 인터파크
/ 다음
/ 네이트
/ 구글
/ 넷마블
/ 이로모
/ 네이트온
/ 한게임
/ 농협인터넷뱅킹
/ kbs / 농협
/ 세이클럽
/ 서든어택
/ mbc / 위디스크
/ 판도라tv / 엠파스
/ 아이템매니아
/ 삼성카드
/ 던파
/ 팍스넷
/ 보배드림
/ 아이템베이
/ 롯데닷컴
/ 파란
/ 파일노리
/ 하나은행
/ 대한항공
/ 워크넷
/ sbs / 신한카드
/ 롯데시네마
/ 멜론
/ 현대카드
/ 곰플레이어
/ 피망
/ 국민은행인터넷뱅킹
/ 와우인벤
/ 기업은
행
/ 스포츠조선
/ 미래에셋증권
/ 다나와
/ ktf / 삼성전자
/ 버디버디
/ 알바몬
/ 교보문고
/ 외
환은행
/ 이랜드노동조합
/ 이랜드일반노동조합
/ 십이지천2 / gs홈쇼핑
/ 와우메카
/ 현대자
동차
/ 동양종금
/ 메이플스토리
/ 판도라
/ 아고라
/ 조선일보
/ 사람인
/ 스포츠서울
/ 소리바
다
/ sk텔레콤
/ 국세청
/ 롯데카드
/ 부동산114 / 리니지
/ 롯데백화점
/ 모키
/ 싸이월드미니
홈피
/ 클럽박스
/ t월드
/ 홀인원비뇨기과
/ 이마트
/ 벅스뮤직
/ 롯데홈쇼핑
/ 신한은행인터넷
뱅킹
/ 엠파일
/ 교차로
/ 애니콜
/ 벼룩시장
정보
찾기
(뉴스,질의응답)
26야마다유
/ 문지은
/ 이명박
/ 조경태
/ 이명박탄핵
/ 지수원
/ 광우병
/ 오구리순
/ 이계진
/ 소
녀시대
/ 박용하
/ 후(신인가수) / 빅뱅
/ 쇠고기청문회
/ 박선주
/ 김시향
/ 다나카미호
/ 화분
(알렉스노래) / 송윤아
/ 어버이날
/ 정운천
/ 창업
/ 진중권
/ 이토히데아키
/ 청문회
/ 알렉스
서비스
찾기
(트랜잭션)
25
이명박탄핵서명
/ 아이언맨
/ 환율
/ 지하철노선도
/ 스피드레이서
/ 옥션정보유출확인방법
/ 날씨
/ 온에어18회
/ 영화
/ 100분토론
/ 지도
/ 웹하드
/ 블리치169화
/ 로또당첨번호
/ stx팬
오션
/ 삼성중공업
/ 아현동마님
/ 아빠셋엄마하나
/ 일지매
/ 너는내운명
/ 탄핵서명
/ 블리치
168화
/ 곰플레이어최신버전다운로드
/ 우편번호검색
/ 로또
/
2009-11-13 네비게이션검색통합 - Pilot 기술문서 7
쿼리의
목적
– 사이트/정보/서비스
•
Q:네이버–
사이트
찾기•
Naver 사이트
•
Naver 하부사이트
•
NHN 사이트
–
정보
찾기•
기업개요, 주식시세
•
백과사전, 위키
•
사옥위치/지도, 주소
•
대표전화, 서비스상담
•
이미지, 동영상CF
•
뉴스
–
서비스
찾기•
메일
•
검색
•
카페
•
블로그
•
미투데이
•
Q:이효리–
사이트
찾기•
이효리
팬홈페이지
•
이효리
팬카페
•
이효리
소속사
사이트
–
정보
찾기•
프로필, 위키
•
TV방송, 콘서트, 앨범
•
사진, 동영상, 음악
•
뉴스
–
서비스
찾기•
음악
들어보기
•
Q:홍대
클럽–
사이트
찾기•
홍대
클럽
사이트
–
정보
찾기•
홍대지역
클럽위치/지
도
•
홍대클럽관련
뉴스
•
홍대클럽관련
블로그/
후기/추천글
•
홍대클럽
사진/동영상
•
홍대클럽
이벤트/공연
–
서비스
찾기•
홍대
클럽
카페
가입
• “쿼리
is a 주제”인 경우
• 사이트
정보가
(1) 중복없이
(2) 연
관성
있게
정리되어
(3)빠짐없이
출
력되길
바람. 이런
경우
상하좌우
주
제로
1 Depth의
의미확장
필요.
• “쿼리
is a 주제”인 경우
• 사이트
정보가
(1) 중복없이
(2) 연
관성
있게
정리되어
(3)빠짐없이
출
력되길
바람. 이런
경우
상하좌우
주
제로
1 Depth의
의미확장
필요.
• “쿼리
belongs to 주제”인 경우
• 쿼리에
관한
주제를
가장
많이
찾
을
수
있는
사이트를
원함. 불충분한
내용의
사이트는
사양. 예) 이효리가
곁다리로
출연한
가수C양의
콘서트
(x)
• “쿼리
belongs to 주제”인 경우
• 쿼리에
관한
주제를
가장
많이
찾
을
수
있는
사이트를
원함. 불충분한
내용의
사이트는
사양. 예) 이효리가
곁다리로
출연한
가수C양의
콘서트
(x)
• “쿼리 locateIn and hasType 주제” 인 경우
• 사이트
정보가
(1) 주제의
속성을
만족하며
(2) 제시된
속성과
연관있
는
내용만
출력되길
바람, 예) 홍대
가
아닌
지역의
클럽, 홍대의
술집(x)
• “쿼리 locateIn and hasType 주제” 인 경우
• 사이트
정보가
(1) 주제의
속성을
만족하며
(2) 제시된
속성과
연관있
는
내용만
출력되길
바람, 예) 홍대
가
아닌
지역의
클럽, 홍대의
술집(x)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 8
네비게이션
쿼리의
예
-
범어사
•
범어사(梵魚寺)
–
금정산에 있는 절. 678
년
신라
문무왕
시절에
의
상에
의해서
지어짐. 후
에
조계종으로
합쳐진
화
엄종의
10대
사찰
안에
속했음.
•
범어사
–
위치: 부산
금정구
–
건물: 사찰
–
종교: 불교
–
관광지: 보물
–
정보자원: 블로그/카페/
사진/동영상/사이트
등..
X
X
X
X
2009-11-13 네비게이션검색통합 - Pilot 기술문서 9
사이트
쿼리
통합의
구축
방안
•
Bottom-up
–
신규
컬렉션
생성
•
Top-down
–
메타
데이터
생성
•
현행
자원
이용
–
웹사이트
검색
개편
–
바로가기
모음
※
더
큰걸
바라보면
어떨까??
Pilot 1차
버전
리뷰
& 문제점
• 1차
기획
내용
• 1차
개발
내용
• 데이터
샘플
• 문제점
2009-11-13 네비게이션검색통합 - Pilot 기술문서 11
Pilot – 1차
버전
– 기획
•
핵심
아이디어–
노출
타입별
멀티
컬렉션
검색
•
사이트
통합화면
노출
타입–
기본타입•
대표사이트
+ 하위사이트
•
바로가기
+ 스폰서링크
+ 사이트
–
검색포털타입: 네이버, 네이트, 야후, 구글, 빙
등..
•
대표사이트
+ 하위사이트
•
바로가기
+ 스폰서링크
+ 사이트
–
대표번호
타입: 프랜차이즈, 통신사, 금융
등..
•
대표사이트
+ 전화번호
+ 하위사이트
•
대표사이트
+ 전화번호
+ 하위사이트
+ 지도(지점안내)
•
바로가기
+ 스폰서링크
+ 대표사이트
+ 전화번호
+ 하위
사이트
–
개별전화번호
타입: 대표번호가
없는
경우, 요식업, 학원
등..
•
대표사이트
+ 하위사이트
+ 지도(지점안내&전화번호)
•
바로가기
+ 스폰서링크
+ 대표사이트
+ 하위사이트
+ 지도(지점안내&전화번호)
–
지점
타입: 백화점, 영화관, 마트
등..
•
대표사이트
+ 하위사이트
+ <숨김/펼침>지점안내
•
바로가기
+ 스폰서링크
+ 대표사이트
+ 하위사이트
+ <숨김/펼침>지점안내
–
1:1 타입: 사이트&지역정보가
유일한
쿼리
•
사이트+지역정보+(길찾기)+(대중교통정보)
•
동일명칭
사이트
다수
2009-11-13 네비게이션검색통합 - Pilot 기술문서 12
Pilot – 1차
버전
– 개발
1.
쿼리
입력-
등록된
모든
컬렉션에
고정검색
2.
바로가기
검색-
Exact 키워드(자원) 검색
-
siteseq 출력
3.
웹사이트
검색(메타데이터)
-
docid = siteseq 를
검색
-
사이트의
dirseq 출력
4.
디렉토리
검색(연관사이트)
-
dirseq를
통해
같은
트리의
사이
트 검색
: 내부(하위) 또는
연관
: <dirseq>&<키워드> 조건검색
-
다수의
docid 출력
5.
메타데이터로
추가
검색-
로컬
대상
‘키워드’
검색
6.
검색결과
통합
및
UI 포장
출력-
랭킹
없음
10.31.254.121
(웹서버/Python)
10.10.40.246
(웹서버/Python)
바로가기
(10.30.40.172)
2웹사이트
(10.20.253.180)
3디렉토리
(211.115.77.9)
4
로컬
+ etc
5
통합검색결과
querysiteseq
docid
dirseq
dirseq
docid
※
비고: 빨간네모는
입력, 파란네모는
출력을
의미
점선은
Request(요청), 실선은
Response(응답)을
의미
1
6Pilot-1차
버전
검색
Flow
2009-11-13 네비게이션검색통합 - Pilot 기술문서 13
Talkro Schema – 웹사이트^[START]^[path_dir_rank] 4907 318 35 2^[issue_score] 10337789^[recommand_yn] N^[new_yn] N^[rank_score_rank] 11071^[popular_star_count] 1^[siteurl1_hilight] http://www.dell.co.kr/^[siteurl1_disp] http://www.dell.co.kr/^[idpath] 110 164 126 199386^[dirseq] 199386^[history_yn] Y^[clickkeyvalue]
dell%5.0491 dellcomputer%0.6376 delllaptop%0.1952 dellpc%0.9299
dellserver%1.3823 dell노트북%3.8187 dell서
버%2.6518 dell워크스테이션%1.0196 dell컴퓨터%4.4954 workstation%0.3224 workstation노트북%0.0564 www.dell.co.kr%0.1723 노트북델%1.3202 노트북워크스테이션%0.3612 델%5.111 델pc%1.4088 델노트북%3.2425 델서
버%1.1732 델서버컴퓨터%0.0246 델서버판매%0.3189 델워크스테이션%0.5552 델컴퓨터%6.4329 ((중략)) ^[path_ko_title] 비즈니스, 쇼핑^컴퓨터, 인터넷^하드웨어^델
컴퓨터^[detail_dead_yn] Y^N^[siteurl1_link] http://www.dell.co.kr/^[week_uv] 5213^[hiddentitle_index] dell|dellcomputer|dell노트북|dell컴퓨터|델|델pc|델노트북|한국델컴퓨터|^[clickkey] dell dellcomputer delllaptop dellpc dellserver dell노트북
dell서버
dell워크스테이션
dell컴퓨터
workstation workstation노트
북
www.dell.co.kr 노트북델
노트북워크스테이션
델
델pc 델노트북
델서버
델서버컴퓨터
델서버판매
델워크스테이션
델컴퓨터
((중
략))^[manualkey] 미니넷북^[sitedesc] 데스크탑, 미니
노트북, 넷북, 워크스테이션, 서버, 스토리지, PC 판매.^[fchar_eng] 0델컴퓨터^[sitetitle_index] 델컴퓨터^[rank_score] 475.415633097346^[manualkeyvalue] 미니넷북%3^[official_yn] N^[url_name] dell dell.co.kr www.dell.co.kr http://www.dell.co.kr
http://www.dell.co.kr/ http://www.dell.co.kr http://www.dell.co.kr/^[sitetitle_load] 델컴퓨터^[siteseq] 588427^[localmap_yn_locate_xy] N^[rank_score_rank_variation] 2527^[dirflag] 0^[END]
1 1 keyword[0] 델컴퓨터
& title[0] 델컴퓨터
& url[0] http://www.dell.co.kr/ & linkurl[0] http://www.dell.co.kr/ & siteseq[0] 588427
&
<< 바로가기 >>
2009-11-13 네비게이션검색통합 - Pilot 기술문서 14
Talkro Schema – 디렉토리^[start]^[dirseq] 199386^[kotitle_index] 델
컴퓨터^[kotitle_rank] 델컴퓨터^[entitle] Dell Computer^[keyword] dell컴퓨터^[adult_yn] N^[dir_cnt] 0^[site_cnt] 3^[site_dir_cnt] 3^[manualkey]^[manualkeyvalue]^[path_dirseq] 110 164 126 199386^[path_kotitle] 비즈니스, 쇼핑|컴퓨터, 인터넷|하드웨어|델
컴퓨터^[path_entitle] Business_Shopping|Computers_Internet|Hardware|Dell_Computer^[shortpath_dirseq] 164 126 199386^[shortpath_kotitle] 컴퓨터, 인터넷|하드웨어|델
컴퓨터^[rank_score_sum] 139387^[dir_level] 4^[end]
바로가기바로가기
웹사이트웹사이트
디렉토리디렉토리
로컬로컬
siteseq
dirseq
키워드
<< ‘델컴퓨터’
연결구조
>>
※ 스트링매칭의
검색
이라
무엇이 나올지
보
장할
수
없다.
※ 고정된 id로
보장된
결과가
나오지만
연결
구조가
주제별로
기준
이
이질적이거나
짬뽕.
2009-11-13 네비게이션검색통합 - Pilot 기술문서 15
Talkro Schema – 로컬^[START]^[DOCID] P782652^[NEW_DOCID] 9728531^[CORP_O_INDEX] 델컴퓨터코리아(주)^[CORP_NS_INDEX1] 델컴퓨터코리아(주)^[CORP_NS_INDEX2] 델컴퓨터코리아(주)^[CORP_SYN_INDEX]^[MANUAL_KEYWORD]^[CORP_NS_LEN] 26^[HOMEPAGE]^[POINT_X] 506675^[POINT_Y] 1107648^[ADDRESS] 서울 서초구 서초동
1339-9^[HOUSE_M_YN] N^[HOUSE_NUM1] 1339^[HOUSE_NUM1_SORT] 1339^[HOUSE_NUM2] 9^[ZIPCODE] 137-070^[PHONE_DISPLAY] 02-2194-6000^[PHONE_INDEX] 02-2194-6000,2194-6000^[PHONE_SYN_DISPLAY]^[PHONE_SYN_INDEX]^[PHONE_YN] Y^[LCODE_DEPTH1] II^[LCODE_DEPTH2] I1014^[LCODE_DEPTH3] I10140300^[LNAME_DEPTH1] 서울^[LNAME_DEPTH2] 서초구^[LNAME_DEPTH3] 서초동^[LNAME_DEPTH2_UP]^[LNAME_DEPTH3_UP] 서초동^[CATE_ID_DEPTH1] 7^[CATE_ID_DEPTH2] 147^[CATE_ID_DEPTH3] 215^[CATE_NAME_DEPTH1] 서비스,산업^[CATE_NAME_DEPTH2] 정보통신,IT^[CATE_NAME_DEPTH3] 소프트웨어^[CATE_SYN_DEPTH1] C7; 서비스,산업; 기타업종; 기타업종일반; 서비스; 산업;^[CATE_SYN_DEPTH2] C147; 정보통신,IT; 정보통신; IT;^[CATE_SYN_DEPTH3] C215; 소프트웨어; 그래픽; CAD; CAM; 캐드; 캠; CAD학원; 맥스; 맥스학원;
캐드전문학원; 캐드학원; 비즈니스소프트웨어; 경영소프트웨어; 소프트웨어; 소프트웨어개발; 소프트웨어게임판매; 전산개발; 프로그램개발; 회계소프트웨어; 재무소프트웨어;
.. (( 계속
)) ..
^[LAST_CATE_DEPTH] 3
^[LAST_CATE_ID] 215
^[LAST_CATE_NAME] 소프트웨어
^[CP] P
^[SOURCE] koid
^[SOURCE_ID]
^[THUMNAIL]
^[TVSHOW_NAME]
^[TVSHOW_ID]
^[STAR] 0
^[COUNT_RATING] 0
^[COMMENT]
^[REPLY_CONTENTS]
^[REPLY_COUNT] 0
^[REVIEW_ID]
^[REVIEW_CONTENTS]
^[REVIEW_URL]
^[REVIEW_COUNT] 0
^[BLOG_REVIEW_COUNT] 0
^[COUNT_READ] 219
^[PHOTO_COUNT] 0
^[REP_MENU]
^[PRICE]
^[PRICE_ID]
^[PRICE_1] 0
^[PRICE_2] 0
^[PRICE_3] 0
^[BRAND]
^[MODDTTM] 20090918201336
^[LOCAL_PRIORITY] 1
^[DOC_PRIORITY] B
^[SP_CATEGORY_YN] N
^[CORP_SCORE] 100199
^[ADULT_FLAG] 0
^[THUMNAIL_YN] N
^[END]
델컴퓨터코리아㈜델컴퓨터코리아㈜
델컴퓨터-강원.원주델컴퓨터-강원.원주
델컴퓨터-충북.진천델컴퓨터-충북.진천
델컴퓨터-경기.안양델컴퓨터-경기.안양
델컴퓨터제천OA전산
-충북.제천
델컴퓨터제천OA전산
-충북.제천
델컴퓨터-충북.제천델컴퓨터-충북.제천
델컴퓨터장락점-충북.제천델컴퓨터장락점-충북.제천
델컴퓨터코리아A/S(서비스)델컴퓨터코리아A/S(서비스)
…
<< 1-Level 트리 구조
>>
2009-11-13 네비게이션검색통합 - Pilot 기술문서 16
Pilot – 1차
버전
– 문제점
•
빈약한
랭킹요소
–
사이트
•
키워드, 사이트
랭킹
•
데이터
구조
중심의
검색
결과
사용자 관심 중심 필요
–
바로가기/사이트/지역정보
등
개별적인
랭킹과
관심사항이
다름
–
통합된
관점에서의
랭킹
필요
•
ex) 훼미리마트
vs 명가
훼미리마트, 모나와
훼미리마트타이쿤
•
메타데이터의
불완전성
–
DirSeq가
서로
다른
기준으로
분류되어
있음
•
ex) 훼미리마트
편의점
vs 삼성전자
서비스센터
삼성전자
–
ID 방식의
연결값이
없으면
스트링매칭이
되어
불완전
검색
노출
•
데이터
가공비용
–
siteseq(=docid), dirseq 등
필드의
명칭과
값범위, 값기준이
다름
–
새로운
연결관계를
문서데이터
상에서
구축시
문서크기에
비용
비례
토픽맵
소개
및
검색엔진으로의
적용
• 토픽맵
개념
• 토픽/연계/어커런스
• 토픽맵
병합
• 토픽맵
데이터모델
• 검색엔진
적용방안
–
초간단
버전
2009-11-13 네비게이션검색통합 - Pilot 기술문서 18
지식층
정보층
토픽맵
– ISO국제표준
지식표현모델
•
이중구조–
지식층(Knowledge Layer)
•
지식의
구조
표현
–
정보층(Information Layer)
•
지식의
구조와
연관된
컨텐츠의
위치
정보
•
구성요소–
토픽(Topic)•
Type, Name
–
어커런스(Occurrence)•
Type, Name
–
관계(Association)•
Type
박유전
서편제 동편제
순창
wasBorn
doSinging
doSinging
이미지
웹문서
DB자료
뉴스
동영상
이미지
음악
지도
2009-11-13 네비게이션검색통합 - Pilot 기술문서 19
토픽맵
– 개요(1)
•
토픽(Topic)
–
주제
혹은
개념을
표현
(기존
분류체계의
subject와
유사)
–
하나의
이상의
이름
부여
가능
•
base name, display name, sort name
–
토픽
타입(Type): 유사
의미를
갖는
인스턴스들을
묶는
역할
•
토픽
is-a 토픽타입: 토픽타입은
토픽(instance)의
클래스(class)
•
ex) ‘범어사’의
토픽타입
건물, 지명, 사진, 웹사이트, 전화번호, 지도
•
어커런스(Occurrence)
–
토픽의
관점에서
토픽에
해당하는
자원을
연결
–
ex) ‘범어사’: 문서(리뷰/블로그/카페글), 이미지, 지도
•
썸네일: http://imgsrc.search.daum-img.net/special_search/special/0711/071109212606_2
•
URL: http://www.beomeosa.co.kr
•
Daum지도: http://local.daum.net/place/place_view.daum?place_id=P38909
•
블로그(리뷰): http://www.internetmap.kr/1122
2009-11-13 네비게이션검색통합 - Pilot 기술문서 20
토픽맵
– 개요(2)
•
연계(Association)–
토픽과
토픽을
연결시켜
주는
관계를
표현
토픽맵
형성
–
어떤
토픽
간의
관계도
설정할
수
있음•
cf. 시소러스: BT(상위),RT(연관),NT(하위)
의미확장
–
ex) 삼성전자
–
<가전제품/브랜드> -
애니콜, 하우젠, 지펠
다음
-
<웹서비스/내부사이트> -
TV팟, 뉴스, 카페, 검색
cf. 다음
-
<null> -
다음소프트: Empty Assoication(Wrong!!)
•
토픽맵의
병합(Merge)
–
토픽맵
간의
의미
분석
결과에
따라
매핑률(%)을
적용함으로써
유사한
토픽들을
병합
(토픽맵의
병합/토픽의
병합)
–
병합규칙: 주제
식별자가
같거나
룰(rule)을
따르면
두
토픽을
병합(중복제거)
•
rule: IF title(토픽A) = title(토픽B) or url(토픽A) = url(토픽B) then
mergeMap(토픽A,토픽B)
•
ex) IF url(삼성전자@사이트) = url(삼성전자@웹문서) then mergeMap(삼성전자)
–
XML 기반의
토픽맵은
추론이
가능: 연계에
의한
토픽
탐색
•
cf. 일반
검색엔진에서
토픽
탐색은
구조적으로
1-Level 만
가능(제한사항)
검색엔진에
적합한
모델링
필요
2009-11-13 네비게이션검색통합 - Pilot 기술문서 21
토픽맵
– 기술언어
XTM
2009-11-13 네비게이션검색통합 - Pilot 기술문서 22
토픽맵
– 데이터모델
예제
•
보건산업기술분류체계의
토픽맵
명세서
설계
–
<논문> 효율적
지식공유를
위한
토픽맵
기반의
지식맵
서비스
모형
개발, pp.89-90
Type Description
Business Reference Model
보건복지분야의
정부기능분류모델. 상하/하위
레벨관계는
PartOf으로
함.
Department 행정부처
Health Industry Technology Classification
보건산업기술분류체계
Knowledge Document
업무지식의
지식표현. 더블린코어의
데이터
요소를
어커런스로
정의함.
Language 업무지식의
언어
형태를
표현
Team 행정부처의
부서
Person Team의
구성원
Rights 업무지식의
권한관리를
표현
Type Description
Belongs to 보건산업기술분류체계와
업무지식과의
관계
Has language 업무지식과
언어와의
상관관계를
표현
Has right 업무지식과
권한관계를
설명
Has role 정의된
연계에
대한
토픽간의
관계를
정의
Has type 업무지식의
형태와의
관계를
정의
Is Conducted by 구성원과
정부기능분류모델의
수행관계
표현
Is Controlled by 정부기능분류모델을
컨트롤
함.
Is Produced by 구성원에
의한
업무지식
생성관계를
정의
Is Published by 업무지식의
출처
관계를
정의
Is Managed by 정부기능분류체계의
관계를
정의
Superclass/subclass Superclass/subclass
works in works in
Type DataType Size Description
Title String 50 표제
Subject String 50 주제
description String 50 설명
Relation String 50 관계
Coverage String 50 내용범위
Identifier String 50 식별자
Publisher String 50 발행처
Source String 50 출처
Language String 50 언어
Creator String 50 제작자
Contributor String 50 기타제작자
Right String 50 권한관리
Type String 50 자료유형
Format String 50 표현양식
Date Date date Date
■
Occurrence Type 명세서
■
Topic Type 명세서
■
Association Type 명세서
2009-11-13 네비게이션검색통합 - Pilot 기술문서 23
쿼리
– 주제(Topic) – 문서
•
2-Phase 검색
구조
–
1단계: 토픽맵검색
•
TopicType: 토픽맵
범위
•
Association: 연계토픽
한정자(토픽맵)
•
Occurrence: 문서집합
한정자(토픽)
–
2단계: 컬렉션별
문서검색
•
기존
검색: 키워드
+ 조건
•
랭킹요소
–
로그/Hit
•
쿼리와
토픽이
가까운
정도를
클릭비
율로
반영
•
UserAct_Tag%가중치
방식
–
필드/태그
•
양질의
문서가
주어진
토픽에
얼마나
충실한가를
반영
•
만족되는
필드의
수와
필드별
검색
정
확도
AssociationAssociation
OccurrenceOccurrence
로그/Hit
필드/태그
<랭킹요소>
<랭킹요소>
바로가기, 웹사이트
(디렉토리), 로컬, 블
로그, 카페
2009-11-13 네비게이션검색통합 - Pilot 기술문서 24
지식표현모델
– 시소러스
vs 토픽맵
•
토픽(Topic)–
삼성전자
–
삼성전자
다운로드센터
–
삼성전자
서비스센터
–
삼성전자
반도체
–
애니콜
–
지펠
–
하우젠
•
관계(Association): 시소러스
–
연관
사이트(&동의/유사)
–
하위
사이트(좁은)
–
상위
사이트(넓은)
•
대상물(Occurrence)–
URL
–
컬렉션
문서
URL•
바로가기, 사이트, 로컬
•
웹문서
•
블로그, 카페명
삼성전자
삼성전자
서비스센터
삼성전자
반도체
애니콜
삼성전자
다운로드센터
http://삼성전자
URL
지펠 하우젠
http://삼성전자/다운로드센터
http://삼성전자-서비스센터
http://애니콜
http://지펠
http://하우젠
http://삼성전자-반도체
URL URL URL URL URL URL
사이트
로컬
웹문서
바로가기
블로그
카페
RT
NT
BT
RT
NTBT
토픽타입: 사이트
2009-11-13 네비게이션검색통합 - Pilot 기술문서 25
웹사이트
토픽타입
– 초간단
버전의
토픽맵
•
삼성전자–
토픽Type: web (※전체Type: web/person/place/brand/group)
–
연계Type•
<web> super/sub–
Topic of sub(삼성전자): 삼성전자
다운로드센터, 삼성전자
서비스센터
•
<brand> product/maker–
Topic of product(삼성전자): 삼성전자
반도체, 애니콜, 지펠, 하우젠
•
<person> actor–
Topic of actor(삼성전자): 이건희(삼성), 이재용(삼성), cf. ‘이부진’(장녀) –
‘이건희’와만 관계 있음
•
<place> head/branch–
Topic of head(삼성전자): 삼성전자본사(강남역)
–
Topic of branch(삼성전자): 삼성전자
서비스센터(…), 삼성플라자(…)
–
어커런스Type•
컬렉션_쿼리URL: 하나
이상
이상
가능–
이건희 인물^http://search.daum.net/search?w=tot&q=%B1%E2%BE%F7%C0%CE%20%C0%CC%B0%C7%C8%F1&ppkey=25368
–
삼성전자
사이트^http://search.daum.net/search?w=dir&m=site&lpp=10&q=%BB%EF%BC%BA%C0%FC%C0%DA
•
연관태그: 연결되는
토픽, ex) tag(이건희) 삼성%.99,기업가%.56,1942생%.35
•
topicID, 썸네일, 명칭_display, 명칭_base, 명칭_sort
삼성전자 web sub 삼성전자
다운로드센터
삼성전자 web sub 삼성전자
서비스센터
삼성전자 web product 삼성전자
반도체
삼성전자 web product 애니콜
web
web
brand
brand
삼성전자 web actor 이건희person
토픽_p p_Typ ass 토픽_nn_Typ
<< association 검색 >>
삼성전자
애니콜
s서비스
삼성본사
이건희
tBase
113113
113114
113115
113116
113117
tID
전자, 대기업
삼성전자, 핸드폰
삼성전자, 서비스센터
서울
서초구, 강남역
삼성, 기업가, 1942생
tAss
web
brand
web
place
person
tTyp
사이트_http://..
tLink
사이트_http://..
사이트_http://..
로컬_http://..
인물_http://..
<< topic 검색 >>
Pilot 2차
버전
설계
& 개발
계획
• Pilot 2차
개발범위
• Pilot 2차
버전의
동작
Flow
• 랭킹요소
–
로그, 태그
2009-11-13 네비게이션검색통합 - Pilot 기술문서 27
개발범위
•
Task1: View 파트–
쿼리별
토픽타입
설정
–
토픽타입별
출력
Template
–
노출대상의
조정
정책•
ex) ‘인물’
쿼리Type에서
로컬은
1개, 또는
정확도
0.9점
이상만
출력
•
Task2: Control 파트–
2 Phase Retrieval 로직
구현
–
검색결과
중복제거
–
랭킹: 클릭점수
+ 태그매칭점수
•
Task3: Model 파트–
Topic, Association, Occurrence 타입
설계
–
초기
토픽맵으로
스키마
구성
–
검색엔진
설치
및
태그/링크
데
이터
수동구축
검색결과
UI
& 토픽타입
설정
토픽맵
데이터
모델링
& 태그/링크
수동구축
2PR 통합랭킹
& 중복제거
+ 토픽타입별
기획요소
토픽타입별
기획요소
+ 텍스트마이닝
(자동태깅)
텍스트마이닝
(자동태깅)
+ 쿼리
주제연관도
(로그분석)
쿼리
주제연관도
(로그분석)
Task: 1
Task: 3
Task: 2
2009-11-13 네비게이션검색통합 - Pilot 기술문서 28
Pilot – 2차
버전
– 토픽맵
검색
1.
쿼리
입력
2.
토픽맵
검색(메타데이터,clues)
3.
웹사이트
검색
4.
디렉토리
검색
5.
로컬
검색
6.
검색결과
통합
및
UI 포장
출력-
중복결과
제거
-
통합랭킹
적용
-
토픽타입별
노출
Template
10.31.254.121
(웹서버/Python)
10.10.40.246
(웹서버/Python)
웹사이트
(10.20.253.180)
3디렉토리
(211.115.77.9)
4로컬
(spb-local-idx01)
5
토픽맵
검색
2
통합검색결과
※
비고: 빨간네모는
실제데이터, 파란네모는
메타데이터를
의미
점선은
Request(요청), 실선은
Response(응답)을
의미
1
6Pilot-2차
버전
검색
Flow
토픽Type결정
(Template)
컬렉션
쿼리 Template
확장쿼리용
clues
토픽
병합(rule)
&중복제거
Assocation 조건을
만족시키는
Occurrencs만 검색
2009-11-13 네비게이션검색통합 - Pilot 기술문서 29
Pilot – 2차
– Data Flow
web_삼성전자
wiki_삼성전자
sub사이트 브랜드사이트
person
_이건희
로컬
_본사
로컬_지점
(서비스/플라자)
삼성전자 web sub 삼성전자
다운로드센터
삼성전자 web sub 삼성전자
서비스센터
삼성전자 web product 삼성전자
반도체
삼성전자 web product 애니콜
web
web
brand
brand
삼성전자 web actor 이건희person
토픽_p p_Typ ass 토픽_nn_Typ
<< association 검색 >>
삼성전자
애니콜
s서비스
삼성본사
이건희
tBase
113113
113114
113115
113116
113117
tID
전자, 대기업
삼성전자, 핸드폰
삼성전자, 서비스센터
서울
서초구, 강남역
삼성, 기업가, 1942생
tAss
web
brand
web
place
person
tTyp
사이트_http://..
tLink
사이트_http://..
사이트_http://..
로컬_http://..
인물_http://..
<< topic 검색 >>
토픽맵
검색
& 중복제거
사이트
컬렉션
사이트
컬렉션
로컬
컬렉션
로컬
컬렉션
블로그
컬렉션
블로그
컬렉션
카페
컬렉션
카페
컬렉션
토픽Type별
Template
& 노출정책
네비게이션 검색
통합
결과
tLink
tLinktLink
tLink
2009-11-13 네비게이션검색통합 - Pilot 기술문서 30
자동태깅
– 방법1: 쿼리로그를
이용한
매칭
•
문서에
Hit 된
상위비율의
쿼리를
UserAct_Tag로
배정
–
ex) 카페명, 웹사이트
WeightedSumCafe
: 101.026848
SCORE_CAFE
: 0.847400
RANK_KCAFE
: 0.017986
SCORE_SPAM
: 0.000000
COUNT_MEMBER
: 42548
REGDT
: 20031229
DOCID
: j9zS
TITLE_INDEX
: 효리투게더
TITLE_NGRAM
: 효리
리투
투게
게더
효리투
리투게
투게더
효리투게
리투게더
효리투게더
RANK_CAFE
: 141
ADMINTAG_TAB
: 이효리
USERTAG_TAB
: 이효리
효리
효리투게더
이효리앨범
패떴
패밀리가떴다
순창고추장
처음처럼
중국현대자동차
인터파크
USERACT_TAB : 이효리팬카페
USER_SCORE : 효리투게더%.874469 이효리%.496596 효
리%.380031 이효리팬카페%.186413 패밀리가떴다%.13245
USERTAG_MI
: 처음처럼%.5631256 효리%.5273429 이효
리%.4691802 패밀리가떴다%.4650547 순창고추
장%.3671090 효리투게더%.3278147 인터파크%.3276483 패떴%.3069022
GRP_CODE
: hyolee79
<< 카페명 문서 >><< 쿼리
-
키워드
>>
<< 클릭 –
로그 >>
(키워드-사이트별
선호비율)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 31
자동태깅
– 방법2: 문서내
단어클러스터링
•
실험데이터: 네이버
사이트
Description내
단어
–
단어군
상위
10,000개 선정 (최상위
빈도
30개 단어 제외)
–
동시출현
단어쌍
개수: 2,276,992
개
자동차
기아자동차
명차
기아
대우자동차
마티즈
칼로스
차량관리
신차
…
보트
비행기
헬기
rc
프라모델
모형
요금표
장기대여
차종
고속도로
편의시설
휴게소
도로안내
휴식공간
고무부품
부품
joint
hose
서스펜션
배기
튜닝
에어댐
시트
타이어
경정비
구조변경
Density=6.4030
Density=6.6675
Density=7.0744
Density=4.1253
Density=2.0325
Density=1.5840
※참조: 민병국-석사논문-2007년-단어연관그래프&단어클러스터링
Pilot 2차
개발
계획서
• 관련사례
• 관련연구
• 참고논문
2009-11-13 네비게이션검색통합 - Pilot 기술문서 33
Pilot 2차
– 시스템
구조도
통검플랫폼
쿼리타입별
UI Template
검색결과
XML Data
2-1. 대상 쿼리 선정
2-2. 출력 형태 기획
통합랭킹/중복제거
<request> HTTP, GET <= 쿼리
<response> HTTP, XML
토픽맵DB
질의&분석
컬렉션별
질의&병합
토픽맵
검색엔진
버클리
DB & XML
버클리
DB & XML
5-1. 모델링 요소
웹사이트 로컬 그밖에
컬렉션5-2. 데이터 구축
1. 통검플
작업
3. 필터링/랭킹
4. 주제연관도
<request> HTTP, GET
<response> HTTP, XML
<request> HTTP, GET
<response> HTTP, XML
MOA-1 시스템
MOA-2 시스템
2009-11-13 네비게이션검색통합 - Pilot 기술문서 34
Pilot 2차
– 작업
사항
1.
통검플랫폼팀
작업
•
[1] 테스트
통검포맷
UI 입히기
•
담당: 통검플랫폼팀
1인
2.
통검기획팀
작업
•
[2-1] 개발대상
쿼리
선정
•
[2-2] 쿼리타입별
검색결과
Template(항목/배치) 디자인
•
담당: 통검기획팀
1인
3.
검색서비스개발팀
작업
•
[3] MOA-1 시스템: 2단계
통합검색, 랭킹, 필터링, 중복제거
•
기존
Pilot-1 코드
이용
+ 추가
작업
•
[4] MOA-2 시스템: XML 기반의
토픽맵
엔진
•
SSE 이용
+ 링크탐색로직
작업
•
[5] 토픽맵
모델링
및
데이터
구축
•
담당: 검색서비스개발팀
3인
※
지정된
담당자: [3]김성덕, [5]민병국
2009-11-13 네비게이션검색통합 - Pilot 기술문서 35
Pilot 2차
– 개발
방법론
•
XP 개발
방법론
–
기획/설계-코딩의
Pair Programming
–
스토리카드의
은유적
서술
스파이크
메일/게시판
개발작업
–
테스트
위주의
개발(TDD)
짧은
릴리즈
반복적
개발
기술기획/스파이크기술/
테스트설계
코드작성
/테스트
확인테스트/추가요구기술
코드작성/
병합/테스트
필요시
분업
/모듈코딩
Next 기술기획
확인테스트/릴리즈 개발중심/빠른릴리즈(2~3일)
반복
2009-11-13 네비게이션검색통합 - Pilot 기술문서 36
토픽맵
설계
– ex) 삼성전자
토픽/어커런스
관계
(연관성)
토픽맵
(토픽+관계)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 37
Pilot 2차
– MOA-1 필터링/랭킹
로직
1.
컬렉션별
검색
(r_size만큼)
2.
컬렉션별
기준으로
문서의
rankScore 계산
(assAnd, AssOr)
3.
컬렉션별로
문서를
정렬
후
짜르기
(w_size만큼)
4.
모든
컬렉션
문서를
다
합친
후
중복제거
(sortName 우선순위)
5.
전체를
대상으로
다시
rankScore 기준으로
정렬
6.
통합랭킹 XML 포맷으로 출력
쿼리
입력
Default 검색
(사이트중심)
토픽
검색
Default 검색
(로컬중심)
TopicMap 검색
(메타데이터)
dom-moa.py
/sax-moa.py
dom-type1.py
바로가기,사이트
웹문서
dom-type2.py
바로가기,로컬
사이트
exist not exist
2009-11-13 네비게이션검색통합 - Pilot 기술문서 38
통합랭킹
XML 포맷
– 구조형/리스트형
구조형 리스트형
2009-11-13 네비게이션검색통합 - Pilot 기술문서 39
topicmap result – 수작업
샘플
2009-11-13 네비게이션검색통합 - Pilot 기술문서 40
default topic – TYPE1(사이트중심)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 41
default topic – TYPE2(로컬중심)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 42
여기까지…
들어
주셔서
감사해
요 ^^
참고자료
– 주제검색 관련 사례
• 관련사례
• 관련연구
• 참고논문
2009-11-13 네비게이션검색통합 - Pilot 기술문서 44
참고: 네이트
-
한장검색
•
Qry: 몰디브여행
–
http://search.nate.com/search/all.html?z=A&s=&tq=&sc=&afc=&q=%B8%F4%B5%F0%BA%EA%BF%A9%C7%E0
• 몰디브
+-
지도(위치)
+-
여행Q&A
+-
항공권예약
+-
환율계산
+-
여행
+-
명소
+-
후기
+-
숙소
+-
음식
+-
사진
• 추천여행
• 스폰서링크
2009-11-13 네비게이션검색통합 - Pilot 기술문서 45
참고: 구글
-
토픽검색
•
Qry: 이영애
–
http://www.google.co.kr/topicsearch?q=이영애&hl=ko&btnG=토픽+검색
• 이영애
+-
귀국
+-
결혼식, 목격
+-
신랑, 남편
+-
대장금
+-
미국, 영어
2009-11-13 네비게이션검색통합 - Pilot 기술문서 46
참고: 강남구청
-
추론검색
•
혼인
–
민원안내
•
혼인신고
•
혼인취소
–
민원서식
–
민원FAQ
–
담당업무
•
공통–
담당자, 전화번호
•
동사무서별–
개포3동, 대치1동, 도곡2동
•
담당부서별–
민원여권과
2009-11-13 네비게이션검색통합 - Pilot 기술문서 47
참고: 다음
-
영화검색
•
Qry: 지아이조
–
http://movie.daum.net/search.do?type=all&q=지아이조
• 지아이조
+-
영화
+-
이미지
+-
동영상
+-
뉴스&매거진
+-
네티즌리뷰
+-
게시판
2009-11-13 네비게이션검색통합 - Pilot 기술문서 48
관련연구: 용어
상하위
관계
자동구축
방안
•
온톨로지의
구축과
학습: 상하위
관계
–
용어의
전문성: Spec(t|D)
•
가정: 어떤
용어가
도메인
전문적인
정보를
많이
포함하고
있을
때
전문성이
높고, 반대로
일상적인
용어일수록
전문성이
낮다
•
용어의
정의
–
X = Y + 차별적
의미특징
…(ISO 704)
X: 정의될
용어, Y: X에
대한
상위개념
•
전문성 Spec(t|D)를 용어 t가 관찰되는 사건 x의 정보량 I(x)로 표현
–
D는
t의
도메인
–
용어간
의미
유사도
•
용어의
특징
집합
사이의
포함
관계의
정도를
정량적으로
표현한
것
•
두
특징
집합의
일치관계, 포함관계, 부분일치
관계, 불포함
관계를
표현
–
계층구조
구축
•
용어
t1, t2에서
Spec(t1|D) < Spec(t2|D) 일
때, 용어
t1을
용어
t2의
상위관계로
배치
)(log)()|( xpxIDtSpec
<논문> Measuring the Specificity of Terms for Automatic Hierarchy Construction, Pum-Mo Ryu & Key-Sun Choi (2004)
2009-11-13 네비게이션검색통합 - Pilot 기술문서 49
참고논문
•
개념적
맵들의
특성분석을
통한
스토리텔링의
시각화에
관한
연구
–
이지수(2008)
•
효율적
지식공유를
위한
토픽맵
기반의
지식맵
서비스
모형
개발
–
김성현(2006)
•
토픽맵을
이용한
시소러스의
구조화
연구
–
남영준(2005)
•
시소러스와
토픽맵의
연관성
연구
–
남영준(2005)
•
토픽맵
기반의
기록정보
검색시스템
구축에
관한
연구
–
권창호(2009)
•
The TAO of Topic Maps –
Steve Pepper(2000)
•
XML Topic Maps and Semantic Web Mining –
Benedicte Le Grand, Michel Soto(2001)
•
Ontology driven websites with Topic Maps TUTORIAL –
Jose Carlos Ramalho, Giovani Rubert Librelotto, Pedro Rangel Henriques(2003)
•
Tontology-driven topic maps –
Bernard Vatant(2003)
•
온톨로지
언어의
비교
연구: W3C OWL과
ISO 토픽맵을
중심으로
–
오삼균(2004)