27
제4제. 제제제 제제 제제제제 INFORMATION RETRIEVAL 제제 : 제제제 ([email protected] ) http://www.facebook.com/hhuIR Korea Maritime University Navis Control Inc.

제4장 불리언 검색

Embed Size (px)

Citation preview

Page 1: 제4장 불리언 검색

제 4 장 .불리언 검색

정보검색INFORMATION RETRIEVAL

강의 : 정창용 ([email protected])http://www.facebook.com/hhuIR

Korea Maritime UniversityNavis Control Inc.

Page 2: 제4장 불리언 검색

불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted index fi le)불리언 모델에서 문헌의 적합성 순위화

OVERVIEW

Page 3: 제4장 불리언 검색

불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화

OUTLINE

Page 4: 제4장 불리언 검색

불대수 (Boolean algebra) 를 사용하여 질의를 만족시키는 문헌을 검색하는 방법

대부분의 상용 검색엔진에서 사용검색 예

“ 유럽 AND 배낭여행” “ 발렌타인데이 OR 화이트데이” “ 스마트폰 NOT 갤럭시”

검색방법 질의어가 색인어로 출현한 모든 문헌들을 탐색 Boolean algebra 연산으로 탐색된 문헌을 선별

불리언 검색 (Boolean Search) 이란 ?

Page 5: 제4장 불리언 검색

문헌 - 용어 행렬

불리언 연산이론

단어 문헌 1 2 3 4 5

a 1 1 0 1 0

b 1 1 0 1 1

c 1 0 1 0 0

a AND b AND c a : 1 1 0 1 0b : 1 1 0 1 1c : 1 0 1 0 0─ ─ ─ ─ ─ ─ 1 0 0 0 0

a OR b OR c a : 1 1 0 1 0b : 1 1 0 1 1c : 1 0 1 0 0─ ─ ─ ─ ─ ─ 1 1 1 1 1

a AND b NOT c a : 1 1 0 1 0b : 1 1 0 1 1c : 0 1 0 1 1─ ─ ─ ─ ─ ─ 0 1 0 1 0

Page 6: 제4장 불리언 검색

역색인파일 (Inverted index fi le)

불리언 연산이론 – CONT.

색인어 문헌빈도 문헌번호

a 3 1 2 4

b 4 1 2 4 5

c 2 1 3

a AND b AND c ▶ (1, 2, 4) AND (1, 2, 4, 5) AND (1, 3) ▶ 문헌 1a OR b OR c ▶ (1, 2, 4) OR (1, 2, 4, 5) OR (1, 3) ▶ 문헌 1, 2, 3, 4, 5a AND b NOT c ▶ (1, 2, 4) AND (1, 2, 4, 5) NOT (1, 3) ▶ 문헌 2, 4

Page 7: 제4장 불리언 검색

질의 처리된 질의

LC (and > or) A OR B AND C A OR (B AND C)

Dialog (not > and > or) A OR B AND C A OR (B AND C)

Google (or > and) A B OR C A AND (B OR C)

EBSCO ( 입력된 순서대로 왼쪽부터 )

A OR B AND C (A OR B) AND C

불리언 연산자 우선순위

Page 8: 제4장 불리언 검색

불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화

OUTLINE

Page 9: 제4장 불리언 검색

불리언 연산자 AND 를 용어의 출현위치로 제한하는 것 출현순서 출현거리 색인 시 용어의 출현위치를 색인해야 함

예 )

인접연산자

두 단어의 출현위치 제한 Dialog EBSCO Google/LC

순서대로 m 단어 내에 (mW) Wm

순서 관계없이 m 단어 내에 (mN) Nm

순서대로 이어서 (w) 혹은 () W “ ”

순서 관계없이 이어서 (N) N

Page 10: 제4장 불리언 검색

단어 문헌빈도 문헌번호 출현위치

a 3 1 7

2 5

4 2

b 4 1 6

2 6

4 10

5 19

c 2 1 8

3 2

인접연산자의 탐색 예

탐색 1) a AND b ▶ 1, 2, 4a 의 포스팅 : 1, 2, 4b 의 포스팅 : 1, 2, 4, 5

탐색 2) a (w) b ▶ 2a 의 포스팅 : 1-7, 2-5, 4-2b 의 포스팅 : 1-6, 2-6, 4-10, 5-19

Page 11: 제4장 불리언 검색

예 1) Education as Growth Life Long Learning TI1 TI2 TI3 TI4 TI5 TI6

예 2) Consumer Responser to Telecommunica-tions Dereg. TI1 TI2 TI4 TI5

Dialog 의 출현위치 부여 예

Page 12: 제4장 불리언 검색

불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화

OUTLINE

Page 13: 제4장 불리언 검색

역색인파일 (Inverted index fi le) 색인어 + 문헌번호

포스팅파일

역색인파일과 포스팅파일

문헌번호 색인어

1 a b c

2 a b

3 c

4 a b

5 b

색인어 포스팅 수 문헌번호

a 3 1 2 4

b 4 1 2 4 5

c 2 1 3

색인어 포스팅 수 포인터

a 3 10

b 4 20

c 2 30

포스팅

1 2 4

1 2 4 5

1 3

문헌파일

도치색인파일

사전파일 포스팅파일

Page 14: 제4장 불리언 검색

역색인파일의 저장장치 활용 사전파일 – 주기억장치에 저장 포스팅 리스트 – 디스크에 저장 ( 문헌번호로 정렬 )

역색인파일을 이용한 탐색 “and” 이용한 검색 시 포스팅 수가 적은 집합부터 비교

역색인파일과 포스팅파일 – CONT.

Page 15: 제4장 불리언 검색

필드검색을 위한 도치색인파일 운영

개별 역색인파일

Dialog 의 색인파일 형식

a 1, 2

b 2, 4

서명 키워드 색인

a 2

b 1, 5

저자 키워드 색인

a 4

주제명 키워드 색인

a 1.ti, 2.au, 4.su, 4.ti

b1.au, 2.ti, 4.ti,

5.au

기본색인파일 형식

title.a 1, 4

author.a 2

subject.a 4

title.b 2, 4

author.b 1, 5

기본색인파일 형식

Page 16: 제4장 불리언 검색

불리언 검색인접연산자와 단어 출현위치 부여도치색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화

OUTLINE

Page 17: 제4장 불리언 검색

전통적 불리언 탐색의 단점 질의어에 대한 상대적 중요도 부여 안됨 질의와 완전 일치한 문헌들만 검색 문헌과 질의와의 적합성 정도에 따른 순위화 할 수 없음

순위화 방법 문헌용어에 가중치 부여

퍼지집합 이론 MMM (Mixed Min and Max) 모형

문헌용어와 질의용어에 가중치 부여 P-Norm 모형

적합성 순위화

Page 18: 제4장 불리언 검색

논리합 정규형 (Disjunctive Normal Form: DNF) 가중치 없이 불리언으로 검색된 문헌을 순위화 하는 방법 불리언 질의를 논리적으로 항등한 논리합 (OR) 질의로 변환

(A AND B) AND C (A AND C) OR (B AND C) (A NOT B AND C) OR (A AND B AND C) OR (NOT A AND B AND C)

논리합 정규형에 의한 순위화

Page 19: 제4장 불리언 검색

a AND (b OR C) 에 대한 결과 (a AND b) OR (a AND c) 로 변환

논리합 정규형에 의한 순위화 예

문헌 1 2 3 4 5

단어 a 1 1 1 1 0

단어 b 1 1 0 1 1

단어 c 1 0 1 0 0

아톰 수 2 1 1 1 0

Page 20: 제4장 불리언 검색

논리합 정규형 순위화보다 간단용어가 출현하는 필드에 가중치 부여하여 순위화하는 방법예 ) 필드 가중치가 아래와 같을 때

서명 (ti): 0.3, 주제 (su): 0.2, 저자 (au): 0.1

질의 “ a” 인 경우 , 문헌 1: 0.3, 문헌 2: 0.1, 문헌 4: 0.5 ( 순위 : 4 > 1 > 2)

질의 “ a AND b” 인 경우 문헌 1: 0.4, 문헌 2: 0.4, 문헌 4: 0.8 ( 순위 : 4 > 1 = 2)

필드 가중치에 의한 순위화

a 1.ti, 2.au, 4.su, 4.ti

b 1.au, 2.ti, 4.ti, 5.au

Page 21: 제4장 불리언 검색

퍼지집합 (Fuzzy Set) 전통적인 집합이론을 확장 Membership-degree function

전체집합의 모든 멤버들을 구간 [0, 1] 에 매핑시킨 것 0: 집합에 포함되지 않음 1: 집합에 완전히 포함됨

합집합 (A∪B) fA∪B = max[fA(X), fB(X)] → max(A, B)

교집합 (A∩B) fA∩B = min[fA(X), fB(X)] → min(A, B)

차집합 (~A) fA(X) = 1 - fA(X)

퍼지집합 이론에 의한 순위화

Page 22: 제4장 불리언 검색

문헌색인어 가중치 질의로 검색된 문헌의 적합성 가중치

a b c (A AND B) OR C A AND (B OR C)

1 0.1 0.5 0.3 0.3 0.1

2 0.4 0.2 0 0.2 0.2

3 0 0 0.4 0.4 0

4 0.6 0.5 0 0.5 0.5

5 0 0.1 0 0 0

퍼지집합 이론에 의한 순위화 – CONT.

Page 23: 제4장 불리언 검색

MMM (Mixed Min and Max) 모형 최대값 , 최소값 문헌 가중치를 선형으로 결합하여 질의와 문헌의

유사도 (similarity) 를 구함

Sim(D, QOR) = C1 * 최대값 + C2 * 최소값 Sim(D, QAND) = C1 * 최소값 + C2 * 최대값

MMM 모형에서의 순위화

Page 24: 제4장 불리언 검색

예 ) C1=2, C2=1 일 때 , (A AND B) OR C ?

MMM 모형에서의 순위화 – CONT.

문헌색인어 가중치 질의로 검색된 문헌의 적합성 가중치

a b c (A AND B) (A AND B) OR C

1 0.1 0.5 0.3 2*0.1 + 1*0.5 = 0.7 2*0.7 + 1*0.3 = 1.7

2 0.4 0.2 0 2*0.2 + 1*0.4 = 0.8 2*0.8 + 1*0 = 1.6

3 0 0 0.4 2*0 + 1*0 = 0.0 2*0.4 + 1*0 = 0.8

4 0.6 0.5 0 2*0.5 + 1*0.6 = 1.6 2*1.6 + 1*0 = 3.2

5 0 0.1 0 2*0 + 1*0.1 = 0.1 2*0.1 + 1*0 = 0.2

Page 25: 제4장 불리언 검색

확률이론을 적용한 방법 A, B 가 독립적일 때 ,

X 가 A 와 B 를 가질 확률 = X 가 A 를 가질 확률 * X 가 B 를 가질 확률

A AND B = Wa * Wb

A OR B = Wa + Wb – (Wa * Wb) NOT A = 1 - Wa

퍼지집합 이론을 응용한 기타 순위화

Page 26: 제4장 불리언 검색

퍼지집합 응용한 기타 순위화 – CONT.

문헌색인어 가중치 질의로 검색된 문헌의 적합성 가중치

a b c (A AND B) (A AND B) OR C

1 0.1 0.5 0.3 0.1 * 0.5 = 0.05 0.05 + 0.3 – (0.05 * 0.3) = 0.335

2 0.4 0.2 0 0.4 * 0.2 = 0.08 0.08 + 0 – (0.08 * 0) = 0.08

3 0 0 0.4 0 0 + 0.4 – (0 * 0.04) = 0.4

4 0.6 0.5 0 0.6 * 0.5 = 0.3 0.3 + 0 - (0.3 * 0) = 0.3

5 0 0.1 0 0 0 + 0 – (0 * 0) = 0

Page 27: 제4장 불리언 검색

문헌과 질의의 유사도 (similarity) 를 거리로 측정

P-Norm