제4장 불리언 검색

제 4 장 .불리언 검색

정보검색INFORMATION RETRIEVAL

강의 : 정창용 ([email protected])http://www.facebook.com/hhuIR

Korea Maritime UniversityNavis Control Inc.

mailto:[email protected]

http://www.facebook.com/hhuIR

불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted index fi le)불리언 모델에서 문헌의 적합성 순위화

OVERVIEW

불리언 검색인접연산자와 단어 출현위치 부여역색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화

OUTLINE

불대수 (Boolean algebra) 를 사용하여 질의를 만족시키는 문헌을 검색하는 방법

대부분의 상용 검색엔진에서 사용검색 예

“ 유럽 AND 배낭여행” “ 발렌타인데이 OR 화이트데이” “ 스마트폰 NOT 갤럭시”

검색방법 질의어가 색인어로 출현한 모든 문헌들을 탐색 Boolean algebra 연산으로 탐색된 문헌을 선별

불리언 검색 (Boolean Search) 이란 ?

문헌 - 용어 행렬

불리언 연산이론

단어 문헌 1 2 3 4 5

a 1 1 0 1 0

b 1 1 0 1 1

c 1 0 1 0 0

a AND b AND c a : 1 1 0 1 0b : 1 1 0 1 1c : 1 0 1 0 0─ ─ ─ ─ ─ ─ 1 0 0 0 0

a OR b OR c a : 1 1 0 1 0b : 1 1 0 1 1c : 1 0 1 0 0─ ─ ─ ─ ─ ─ 1 1 1 1 1

a AND b NOT c a : 1 1 0 1 0b : 1 1 0 1 1c : 0 1 0 1 1─ ─ ─ ─ ─ ─ 0 1 0 1 0

역색인파일 (Inverted index fi le)

불리언 연산이론 – CONT.

색인어 문헌빈도 문헌번호

a 3 1 2 4

b 4 1 2 4 5

c 2 1 3

a AND b AND c ▶ (1, 2, 4) AND (1, 2, 4, 5) AND (1, 3) ▶ 문헌 1a OR b OR c ▶ (1, 2, 4) OR (1, 2, 4, 5) OR (1, 3) ▶ 문헌 1, 2, 3, 4, 5a AND b NOT c ▶ (1, 2, 4) AND (1, 2, 4, 5) NOT (1, 3) ▶ 문헌 2, 4

질의 처리된 질의

LC (and > or) A OR B AND C A OR (B AND C)

Dialog (not > and > or) A OR B AND C A OR (B AND C)

Google (or > and) A B OR C A AND (B OR C)

EBSCO ( 입력된 순서대로 왼쪽부터 )

A OR B AND C (A OR B) AND C

불리언 연산자 우선순위


OUTLINE

불리언 연산자 AND 를 용어의 출현위치로 제한하는 것 출현순서 출현거리 색인 시 용어의 출현위치를 색인해야 함

예 )

인접연산자

두 단어의 출현위치 제한 Dialog EBSCO Google/LC

순서대로 m 단어 내에 (mW) Wm

순서 관계없이 m 단어 내에 (mN) Nm

순서대로 이어서 (w) 혹은 () W “ ”

순서 관계없이 이어서 (N) N

단어 문헌빈도 문헌번호 출현위치

a 3 1 7

2 5

4 2

b 4 1 6

2 6

4 10

5 19

c 2 1 8

3 2

인접연산자의 탐색 예

탐색 1) a AND b ▶ 1, 2, 4a 의 포스팅 : 1, 2, 4b 의 포스팅 : 1, 2, 4, 5

탐색 2) a (w) b ▶ 2a 의 포스팅 : 1-7, 2-5, 4-2b 의 포스팅 : 1-6, 2-6, 4-10, 5-19

예 1) Education as Growth Life Long Learning TI1 TI2 TI3 TI4 TI5 TI6

예 2) Consumer Responser to Telecommunica-tions Dereg. TI1 TI2 TI4 TI5

Dialog 의 출현위치 부여 예


OUTLINE

역색인파일 (Inverted index fi le) 색인어 + 문헌번호

포스팅파일

역색인파일과 포스팅파일

문헌번호 색인어

1 a b c

2 a b

3 c

4 a b

5 b

색인어 포스팅 수 문헌번호

a 3 1 2 4

b 4 1 2 4 5

c 2 1 3

색인어 포스팅 수 포인터

a 3 10

b 4 20

c 2 30

포스팅

1 2 4

1 2 4 5

1 3

문헌파일

도치색인파일

사전파일 포스팅파일

역색인파일의 저장장치 활용 사전파일 – 주기억장치에 저장 포스팅 리스트 – 디스크에 저장 ( 문헌번호로 정렬 )

역색인파일을 이용한 탐색 “and” 이용한 검색 시 포스팅 수가 적은 집합부터 비교

역색인파일과 포스팅파일 – CONT.

필드검색을 위한 도치색인파일 운영

개별 역색인파일

Dialog 의 색인파일 형식

a 1, 2

b 2, 4

서명 키워드 색인

a 2

b 1, 5

저자 키워드 색인

a 4

주제명 키워드 색인

a 1.ti, 2.au, 4.su, 4.ti

b1.au, 2.ti, 4.ti,

5.au

기본색인파일 형식

title.a 1, 4

author.a 2

subject.a 4

title.b 2, 4

author.b 1, 5

기본색인파일 형식

불리언 검색인접연산자와 단어 출현위치 부여도치색인파일 (Inverted Index File)불리언 모델에서 문헌의 적합성 순위화

OUTLINE

전통적 불리언 탐색의 단점 질의어에 대한 상대적 중요도 부여 안됨 질의와 완전 일치한 문헌들만 검색 문헌과 질의와의 적합성 정도에 따른 순위화 할 수 없음

순위화 방법 문헌용어에 가중치 부여

퍼지집합 이론 MMM (Mixed Min and Max) 모형

문헌용어와 질의용어에 가중치 부여 P-Norm 모형

적합성 순위화

논리합 정규형 (Disjunctive Normal Form: DNF) 가중치 없이 불리언으로 검색된 문헌을 순위화 하는 방법 불리언 질의를 논리적으로 항등한 논리합 (OR) 질의로 변환

(A AND B) AND C (A AND C) OR (B AND C) (A NOT B AND C) OR (A AND B AND C) OR (NOT A AND B AND C)

논리합 정규형에 의한 순위화

a AND (b OR C) 에 대한 결과 (a AND b) OR (a AND c) 로 변환

논리합 정규형에 의한 순위화 예

문헌 1 2 3 4 5

단어 a 1 1 1 1 0

단어 b 1 1 0 1 1

단어 c 1 0 1 0 0

아톰 수 2 1 1 1 0

논리합 정규형 순위화보다 간단용어가 출현하는 필드에 가중치 부여하여 순위화하는 방법예 ) 필드 가중치가 아래와 같을 때

서명 (ti): 0.3, 주제 (su): 0.2, 저자 (au): 0.1

질의 “ a” 인 경우 , 문헌 1: 0.3, 문헌 2: 0.1, 문헌 4: 0.5 ( 순위 : 4 > 1 > 2)

질의 “ a AND b” 인 경우 문헌 1: 0.4, 문헌 2: 0.4, 문헌 4: 0.8 ( 순위 : 4 > 1 = 2)

필드 가중치에 의한 순위화

a 1.ti, 2.au, 4.su, 4.ti

b 1.au, 2.ti, 4.ti, 5.au

퍼지집합 (Fuzzy Set) 전통적인 집합이론을 확장 Membership-degree function

전체집합의 모든 멤버들을 구간 [0, 1] 에 매핑시킨 것 0: 집합에 포함되지 않음 1: 집합에 완전히 포함됨

합집합 (A∪B) fA∪B = max[fA(X), fB(X)] → max(A, B)

교집합 (A∩B) fA∩B = min[fA(X), fB(X)] → min(A, B)

차집합 (~A) fA(X) = 1 - fA(X)

퍼지집합 이론에 의한 순위화

문헌색인어 가중치 질의로 검색된 문헌의 적합성 가중치

a b c (A AND B) OR C A AND (B OR C)

1 0.1 0.5 0.3 0.3 0.1

2 0.4 0.2 0 0.2 0.2

3 0 0 0.4 0.4 0

4 0.6 0.5 0 0.5 0.5

5 0 0.1 0 0 0

퍼지집합 이론에 의한 순위화 – CONT.

MMM (Mixed Min and Max) 모형 최대값 , 최소값 문헌 가중치를 선형으로 결합하여 질의와 문헌의

유사도 (similarity) 를 구함

Sim(D, QOR) = C1 * 최대값 + C2 * 최소값 Sim(D, QAND) = C1 * 최소값 + C2 * 최대값

MMM 모형에서의 순위화

예 ) C1=2, C2=1 일 때 , (A AND B) OR C ?

MMM 모형에서의 순위화 – CONT.


a b c (A AND B) (A AND B) OR C

1 0.1 0.5 0.3 2*0.1 + 1*0.5 = 0.7 2*0.7 + 1*0.3 = 1.7

2 0.4 0.2 0 2*0.2 + 1*0.4 = 0.8 2*0.8 + 1*0 = 1.6

3 0 0 0.4 2*0 + 1*0 = 0.0 2*0.4 + 1*0 = 0.8

4 0.6 0.5 0 2*0.5 + 1*0.6 = 1.6 2*1.6 + 1*0 = 3.2

5 0 0.1 0 2*0 + 1*0.1 = 0.1 2*0.1 + 1*0 = 0.2

확률이론을 적용한 방법 A, B 가 독립적일 때 ,

X 가 A 와 B 를 가질 확률 = X 가 A 를 가질 확률 * X 가 B 를 가질 확률

A AND B = Wa * Wb

A OR B = Wa + Wb – (Wa * Wb) NOT A = 1 - Wa

퍼지집합 이론을 응용한 기타 순위화

퍼지집합 응용한 기타 순위화 – CONT.


a b c (A AND B) (A AND B) OR C

1 0.1 0.5 0.3 0.1 * 0.5 = 0.05 0.05 + 0.3 – (0.05 * 0.3) = 0.335

2 0.4 0.2 0 0.4 * 0.2 = 0.08 0.08 + 0 – (0.08 * 0) = 0.08

3 0 0 0.4 0 0 + 0.4 – (0 * 0.04) = 0.4

4 0.6 0.5 0 0.6 * 0.5 = 0.3 0.3 + 0 - (0.3 * 0) = 0.3

5 0 0.1 0 0 0 + 0 – (0 * 0) = 0

문헌과 질의의 유사도 (similarity) 를 거리로 측정

P-Norm