Transcript
Page 1: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

(19) 민 특 청(KR)(12) 공개특 공보(A)

(51) Int. Cl.6

G06F 17/30

(11) 공개 특1999-025846

(43) 공개 1999년04월06

(21) 원 특1997-047649

(22) 원 1997년09월19

(71) 원 과 술연 원 원

특 시 월곡동 39-1

(72) 동

전 역시 동 시스 공 연 연 정보처 연

전 역시 동 373-1 과 술원 전 과

전 역시 동 373-1 과 술원 전 과

전 역시 동 373-1 과 술원 전 과

특 시 동 244-6 빌 2층 크

전 역시 동 373-1 과 술원 전 과

(74) 원희

심 청 :

(54) 컴퓨 시스 에 전문 정보 검 시스

본 문 에 포 든 단 에 여 수 고 에 저 문 조 에 여 료 검 는 전문 정보 검 시스 에 것 특히, 특정 문

당 문 에 존 는 절 는 절 과, 절 에 절들에 여 각 절들 문 내에 존 는 치 정보 는 치정보 과, 치

정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 , 조 에 역 조 여

문 조 생 시키는 포 는 것 특징 는 전문 정보 검 시스 과 그에 는 검 시스 적 , 문 고 는 과정에 전문

여 정보 실 , 러 조 시에 조 고 여 저 공간 극 고, 시에 빠 검 능 제공 수 다.

2

간단

1 비정 문 정보 검 엔 조에 조 시

2는 본 에 전문 정보 검 시스

3 스퍼에 절 수 측정에 실제 치 가정 치에 그래 시

4a 내 4d는 본 에 절 과정에 다 치정보 그 시

5는 적 역 파 시

6 본 에 역 파 조

7 6에 시 는 역 파 조 저 는 과정 수 는 그램 시

19-1

공개특 특1999-025846

Page 2: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

8a 8b는 저 조에 드 포맷 시

9는 정보 검 조 시

10 처 과정 시

는 술 그 종래 술

본 문 고 는 과정에 전문 여 정보 실 , 러 조 시에 조 고 여 저 공간 극 고, 시에 빠 검 능 제

공 컴퓨 시스 에 전문 정보 검 그 조에 것 다.

또 , 본 런-랭스 엔 (run-rength encoding) 각 절 치정보에 , 치정보 저 시에 적 치값 여 런-랭스 엔 높 고 특히 문 조에 적 다.

적 , 컴퓨 시스 전과 정보 저 식 적 나 크 등 태에 CD 나 LD등 적 저 매체 태 전 고 다. 술 같 저 매체들

점 량 나 에 가 저 매 펙트(compact) 저 매체 수 다는 점 가 고 다.

또 , 신 전에 힘 특정 고 는 정보 는 들고 특정 다수 람들과 공 는 경 가 늘 나고 다. , 매 특정 정보(개 적 생 , 연 , 가 , 등등) 제 고는 신망에 연결 가 간에 측에 저 는 정보들 공 게 는

것 다.

라 , 량 정보 검 거나 저 특정 식들 제 고 , 들 제 고 다. 그러므 , 가 특정 에게 정보 가치 휘 는 빠 검

, 빠 검 루 수 저 식에 물 계층적 조가 저 는 식에 라 적 정 다.

그에 라, 근래 제 식 에 가 적 라 수 는 식 (정 는 주제나 심 또는 문 가 정 단 ) 식 , 러 검 는 정보 검 라는 것 , 정보 검 는 문 주제 나 심 ( 키워드) 검 특정 쉰(mashine) 여 동 찾 내는 과 , 에 적 문 찾

내는 검 다.

, 에 문 키워드 찾 내 라고 는 , 러 동 는 크게 나타낼 수 다.

첫 째 는 빈 고 는 계적 식 다. 여 에는 단순 빈 에 (Luhn ), 는 (2 Poisson ), 는 (Dennis-Salton

), 문 n차원(n개 ) 는 공간 (Vector Space Model) 등 들 수 다.

또 , 째 는 1984년 본에 동 에 동 에 보고 식문 제 정 에 나타나 는 같 , 정보 여 문 미 탕 여 는 식 다.

그러나, 술 같 키워드 는 식에 계적 나 정보 는 다 게 그 문 가 가 는 식 나타내 다. 뿐만 니라, 적절 제 시킬

수 에 적 문 검 에는 미흡 점 다.

술 같 내 에 내 다 참고문헌 참조 히 수 것 므 생략 다(참조문헌: Joel L. Fagan, Automatic Phrase Indexing for Document

Retrieval: An Example of Syntatic and Non-Syntatic Methods, ACM, 1987, pp.91-101).

, 본적 키워드 는 식에 계 식에 는 문 에 적 다. 그러 원 는 문 경 , 문 내에 는 여러 가 주제들에 다 적

에는 적 문 다. 그러므 같 식 정보 검 시스 들 주 문 나 신문 등과 같 주제가 정 짧 문 에 만 처 여 , 술

같 내 에 내 다 참고문헌 참조 히 수 것 므 생략 다(참조문헌: G. Salton, J. Allen and Chris Bukkely, Approach to Passage Retrieval

in Full Text Information System, SIGIR'93, 1993, pp.49-58).

라 , 술 같 문제점 극복 는 문 에 처 강 여 만 , 여러 가 키워드 는 시스 에 문제점에 문 전문 여 검 는 시스 에 느끼게 다. 그러나, 같 는 전문 정보 검 경 에

에 과다에 생 는 저 량 가 처 시 생 는 검 공간 너무 커 는 여 능 감 에 문제점 가 고 다.

술 같 능 감 에 문제점 적 식 저 게 는 문

19-2

공개특 특1999-025846

Page 3: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

스(Text Database) (Compression) 는 식 , 술 같 내 에 내 다 참고문헌 참조 히 수 것 므 생략 다.

참조문

1. Justin Zobel, Alistair Moffat, Ron Sacks-Davis, An Efficient Indexing Technique for Full-Text Database System, Proceeding of the-18th VLDB Conference Vancouver, British Columbia, 1992, pp.352-362 .

2. Gordon Linoff and Craig Stanfill, Compression of Indexes with Full Positional Information in Very Large Text Database, SIGIR'93, 1993, pp.88-95 .

3. Y. Choueka, A.S. Fraenkel, S.T. Klein, Compression of Concordances of Concordances in Full-Text Retriever System, ACM, 1988, pp.597-613 .

라 , 문 에 포 든 단 에 고, 에 저 문 조 에 여 검 는 정보 검 제 는 , 전문 정보 검 라 칭 다. 또

, 전문 정보 검 시스 전 문 정보 실 가 다는 점 특징 다. 여 과 존 에 여 적 가능 다는 점 가적 가 다.

에, 에 처 는 존 과는 간 다 게 다. 주 전문 정보 검 시스 들 에 나타나는 (Term)에 정 게 치 는 가 문 만 에게 보여 다. 러 는 는 존 가 가 는 문 내에 가 치 는

과 문 순 (Document Ranking)에 문 다. 그 는 전문 는 문 에 는 문 크 가 커 문 내에 주제가 여러 가 가 수 문 다.

라 , 문 내에 논 적 단 다 게 여 존 과 같 문 내에 느 가 치 는가 보여주 다. 또 , 전문 정보 검 문 검 는 시스 에 다.

펴본 경 에 전문 정보 검 생 동 는 든 에 생 는 경 다. 라 , 좀 체적 에 전문 정보 검 가 는 동 펴보 .

처 는 존 정보 검 주 에만 존 다. , 는 만 다. 러 주 처 는 정보 가 고 여 다. , 태

결과 다 , 격 빈 수에 가 치 가 는 태 다. 그 고 종적 각 단 에 문 내 치정보 가 게 는 , 다 참조문헌 참조 히 수 것 므 생략 다(참조문헌: 과 술원, 비정 문 정보 검 엔 개 , 공 , 1993). 술 조에 조 는 첨 1에 시 는

같다.

술 같 경 문제점 는 만 문 정보 실 생 다. 그고 에 처 에 문제가 는 여러 태 원 복원에 문제가 다. 원 복원 경 경 는 조 접미 , 접 , 조 등 것 처 고 는 절에 제거

다.

러 경 시스 능 태 에 존 게 는 , 태 역시 태 전에 존 다. 그러므 만 미등 경 에 정 에 다. 뿐만니라 원 복원에 가 는 경 에 느 것 택 것 가 택 는 것 역시 100%

정 가 다. 원 복원 경 에 든 에 처 경 에 문제는 심각 다.

술 존 식에 생 수 는 문제 정 여 나열 , 첫째 는 문 만 나타내므 정보 실 래 수 , 째 는 시스 능 너무 태 전에 집 적 존 게 에 라 미등 여 특히 고 가 많 문 에 가능 많 다.

경 는 전문 정보 검 쉽게 결가능 문제 다. 만 정보 검 문제점 많다. 특히 가 심각 것 복 띄 쓰 차 에 문제 다.

루고 는 술적 과제

같 문제점 본 적 문 고 는 과정에 전문 여 정보 실 , 러 조 시에 조 고 여 저 공간 극 고, 시에 빠 검 능 제공 컴퓨 시스 에 전문 정보 검

시스 제공 는 다.

또 , 본 런-랭스 엔 (run-rength encoding) 각 절 치정보에 , 치정보 저 시에 적 치값 여 런-랭스 엔 높 고 특히 문 조에 적 다.

적 달 본 특징 문 에 포 든 단 에 여 수 고 에 저 문 조 에 여 료 검 는 전문 정보 검 시

스 에 에 , 특정 문 당 문 에 존 는 절 는 절 과, 절 에 절들에 여 각 절들 문 내에 존 는 치 정보

19-3

공개특 특1999-025846

Page 4: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

는 치정보 과, 치정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 , 조 에

역 조 여 문 조 생 시키는 포 는 다.

적 달 본 가적 특징 절 당 문 내에 존는 정 특정 문 절 여 식 는 다.

적 달 본 가적 특징 절 에 절 는 특정 문 는 스페 스 단 , . ) ? ' ! ` 탭문 , 문

는 다.

적 달 본 가적 특징 치정보 절 에 각각 절에 여 문 집 에 나 문 여 여 는

문 ID , 당 문 내에 째 문단에 그 절 포 는 가 나타내 문단 , 문단내에 그 절 는 문 치 나타내는 문 , 문 내에 째에 그 절

는 가 나타내는 절 여 는 다.

적 달 본 가적 특징 문단 식 각 문 에는 문단 치 는 종 특정 시문 가 각 문단 에 존 는

다.

적 달 본 가적 특징 특정 시문 는 태그(tag) 는 다.

적 달 본 가적 특징 태그(tag)는 ;P 태 갖는 다.

적 달 본 가적 특징 치정보 문 여 여 문단내 존 는 문 는 . ? ! 스페 스 탭,

문 조 에 다.

적 달 본 가적 특징 조 동등 물 계층 갖는 제 크들과, 각 크들 물 계층에 비 여 단계낮 물

계층에 존 는 식 크들 다 존 엮여 는 트라 조 갖는 다.

적 달 본 다 특징 , 특정 문 당 문 에 존 는 절 는 절 과, 절 에 절들에 여 각 절들 문 내에 존

는 치 정보 는 치정보 과, 치정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 ,

조 에 역 조 여 문 조 생 시키는 포는 여 문 에 포 든 단 에 여 수 고 에 저

문 조 에 여 료 검 는 전문 정보 검 시스 에 전문 정보 검 검 에 :

가 게 는 실 가능 내 드 는 과, 에 드에 여 문 조 검 는 문 조 검 과, 문 조 검 에 검 조 저 는 스 여 조

제 는 조 신 , 조 신 에 제 문 들 에 드에 는 문 는 문 포 는 다.

, 첨 참조 여 본 에 람 실시 히 다 과 같다.

, 본 에 술적 경 펴보 , 본 에 는 전문 정보 검 정여 결 다. 라 , 저 가 생각 문제는 에 적 단

태 문 조 가 므 많 에 가능 것 가 다.

에 펴본 같 에 각 에 원 복원 에 Stemizing과는 달 문제 다. 그러므 는 단 절단 다. 그 고 문 조는 널 쓰 고 역 파 (Inverted Index File) 택 다. 조는 빠

에 무 는 조 져 다.

또 , 단 절단 생 게 는 수는 크게 가 것 보 다. 는 절 그 주 심 편 다. 그러므 전 경 에 나 에

많 절들 절단 그 수가 수적 가 것처럼 보 다.

그러나, 본 에 는 량 문 퍼스에 다 태 절 수는 적 적 것 가정 다. 그 고 문 집 거 경 에 생 는 절 수는 느 정 에 문 가 가 라

가 든가 또는 적 극 수만 가 것 다.

제 는 전문 정보 검 저 문 에 절단 태 고 여 에 문 내에 치정보 가 게 다. 러 태 치정보 가 역 파

파 게 다. 러 문 저 조가 , 가 는 정보 들 게 다. 본 시스 검 에 는 (Boolean Model) 경 여 다. 그러므

문 저 조에 검 에 파 원래 태 는 제(Decompression) , 에 에 적 문 보여 다.

라 , 술 같 능 수 본 에 조는 첨 2에 시 는 같 는 , 2에 시 는 에 첨 1 과 비 여

19-4

공개특 특1999-025846

Page 5: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

펴보 , 2에 시 는 전문 는 1에 키워드 는 달 키워드 고 가 치(weight) 정 는 다. 것과 찬가 전문 문 내 전체 , 문 내 든 단 저 문 다.

, 적 문 란 검 시스 에 문 내 는 것 말 는 것 , 전문 전 동 펴보 , 많 정보 검 에 는 전에 경 에 람에 여 여 다. 러 람에 여 는 경 , 는 람 주 에 여 여 다. 그러므 람에 라 나 달라 다.

그러나, 동 경 는 람 경 는 달 나 에 여 여 검 시스 에 신 높여 다는 점 다. 러 동 정보 검 시스 에 가 게 수

에 가 시스 , 신문 시스 등 문 시스 수적 다.

동 여러 가 많 에 여 고 다. 가 많 는 고 는 문 검 시스 에 검 게 는 키워드 식 많 고 다. 러 키워드 식 문 주제 나 심 문 내에 정 규칙에 찾 낸다. 러 키워드 식에

는 키워드 찾 내는 식 다. 정 규칙에 거 여 는 키워드가 실제 그 문 키워드가 닌 경 문 키워드 는 다.

라 , 러 정보 실 는 전문 등 는 , 전문 문 든 단 는 식 다. 러 전문 문 든 저 므 그 저 공간 거 과 검 시간 커 는 담 가 게 다. 러 결 조 므 거 저 공간 고, 조 검 에 적 조 경 고 또 조 가 므

I/O시에 보다 많 가 고 게 I/O 시간 여 검 시간 다. 전문 검 경 , 에 검 문 들 에 여 는 검 식보다는

나타내는 단 들 문 에 정 게 나타나고 는가 나타내는 에 과적 다. 동는 과 문 집 에 치정보 다. 러 치정보는 검

시에 여러 가 다 검 가능 제공 여 에 수 다.

라 , 첨 2에 시 는 본 에 에 는 동 에 전문 식 또 치정보 제공 다. 또 , 러 적 저 는

조 저 개 라 고, 조 저 는 역 파 조 러 역 파 조 는 개 라 다.

그러므 , 적 개 과정 펴보 , 절 과 치정보에 료 조 정 여는 , 전문 단 절단 다. 단 는 경 절과 단 단 가 같 므 Stemizing 란 에 여 원 복원 여 다. 같 단 쉽 경 정 규칙에 여 원 여 전체 수 다. 그러나

같 절 경 에는 원 복원 태 에 여 만 가능 다. 또 , 태 결과가 매 여러 가 결과가 므 태그(Tagger) 또는 정 규칙에 여 그 나

택 게 다. 러 정보 는 시스 경 정 100% 보 다. 그 고 많 정보 , 여 다.

같 단 많 히브 (Hebrew) 경 에는 매 다 문 적 평균 수천개 고 동 는 2만여개 정 다. 러 히브 전문 Y. Choueka 논문에는 원 복원 고 각각 원 에 가능 단 들 스트 가 고 는 식

택 다. 러 스트 , 정 여 가 시스 능 좌 다.

에 전문 에 단 는 다 과 같 가 태 나누 볼 수 다.

첫째, 태 단 , 태 단 는 존 정보 검 시스 는 단 같다. 단 존 시스 에 는 키워드 심 만 단 만, 전문 정보 검 시스 에 는 뿐만 니라, 동 , 등 단 여 다. 그 는 문 정보 만 나타내는 것보다는 다 들에 나타내 만 정보

실 수 다.

러 시스 정 태 본적 보 다. 러 보 전과 많 정보에 개 과 , 가 다. 태 단 경 , 종가 절단 종 보다 수십에 수만 정 다는 점 가 다. 단점 는 적 듯 태 정 보 과 원래 문 가 가 고 는 정보 므 생 는 실 가 수 다.

째 는 절단 , 문 그 가공 태 고 는 적 다. 절단 문 에 든 정보 가 게 만 절 종 가 매 많 조에 저게 생 는 문제가 심각 다. 그러나, 러 절단 조는 정보

극 시점에 게 수 다. 뿐만 니라 다 흡수가 가능 , 는 든 정보 그 가 다는 점에 다.

절단 단 결정 는 는 에 것과 태 과 같 여러 가 정보 므 생 는 공간과 시간 점 다. 물 절 집 태 집 보

다 크므 생 는 조시 저 공간 다.

본 에 는 문 에 는 절 수는 전체 절 집 보다 주 다는 가정에 절단 전문 다. , 느 정 문 에는 다 절 문 에 는

생 것 란 가정 다. 다 러 절 수가 실제 문 에 게 나타나는가 보

19-5

공개특 특1999-025846

Page 6: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

여 다. 는 신문 , 과 전, 논문 문 에 180만개 절에 나타나는 절 수 조 다.

그 조 결과는 첨 3에 시 는 같 태 그래 나타나는 , 첨 3에 시 는 그래 펴보 , 가정 경 에는 느정 절 수가 가 다가 절 보

가 는 것 주 것 만, 실제 는 180만 절 조 결과 많 절 가 에는 가 는 비 감 는 보 고 다. 물 퍼스(corpus) 크 가 주 크게 가정과 같 그래 그 게 것 다.

그 고, 첨 3에 실제 경 갑 경 가 는 경 는 문 들 첨가 보 다. , 퍼스 는 전문 에 는 가정 가정 그래 에 정 그 는 것 보다 량 퍼스에 가능 다는 것 보 다.

또 , 본 에 전문 가는 절 단 , 치정보 역시 절단 는 , 러 절단 는 스페 스 단 뿐만 니라 ,, ., ), , ?, ', !,

`, 탭문 , 문 등 다. 그러나, 그 쓰 에 절 수 는 , , [, {, }, ] 등 특수 문 는 그 매 므 절단 는다.

또 , 치 정보 여 문 집 에 나타나는 치 다 과 같 튜 는 , 그 식 문 ID, 문단 , 문 , 절 등 순 루 다.

문 ID는 문 집 에 나 문 여 여 는 숫 고, 문단 는 문내에 째 문단에 그 절 포 는 가 나타내 다. 또 , 문 는 문

단내에 그 절 는 문 치 나타내 그 고, 절 는 문 내에 째에 그 절 는 가 나타낸다. 또 , 문단 치 는 종 시문 (markup string)

나 태그(tag) ;P 다.

과 같 절 과 치정보 절 과 치 정보 여 가 첨 4a 내 4d에 시 는 , 4a는 정보 제공 는 문 , 4b내 4d는 절

에 치정보 가 다.

술 같 치정보 가 절 에 는 결과 적 여 그 정보 역 파 조 시키는 , 조 는 적 저 과 빠 탐 시간 가 만족 는만큼 다 수 다. 라 그

첨 5 참조 여 펴보 다 과 같다.

5는 적 역 파 에 , 역 파 과 정보 가 고 는 나눌수 는 , 본 에 정보는 치정보만 다. 그러므 , 본 시스 에

역 파 과 치정보 가 는 포 팅 나눌수 다.

또 , 본 에 는 휘는 절 다. 그러나 검 시에는 적 원만 검 므 시스 에 절과 검 단 원 매치(match)시 다. 라

, 첨 6에 같 , 심 든 단 원 보 절 에 치 므 는 절 과 단 매치가 가능 트라 (Trie) 조

다.

, 스 검 (Prefix Search) 게 다. 스 검 가라는 에 파 에 가가, 가는, 가간에, ....., 가 정보 등 절 찾 주게 다. 러

스 검 가 는 특 검 에 히 다.

또 , 본 에 는 첨 6에 시 는 같 , 에 과 포 팅 에 포스칭 , 역 닝 는 , 6에 포 팅 파 본 주 크는 트라 노드에 끝나는 절 생 는 치 정보가 포스팅 에 가 저 생 는 조 가킨다.

에 는 본 에 파 생 과정 펴보 다. , 전문 정보 검 시스 에 적 는 것 본 문에, 본 에 전문 정보 검 각 펴보 다 과 같다.

, 본 에 조 만들 술적 경 펴보 , 본 에 고 는 조는 Prefix Omission Method Run-length Method Variable Length Method 여

조 생 시키는 , 본 에 전에 조 저 에 여 다 과 같다.

, 6에 시 는 역 조 저 는 식 고 적 7에 시 같다.

7에 시 같 고 식 저 저 고 신 들에 치정보는 신 치정보 포스팅 에 치 래에 게 는 식 므 , 나 에 스 검 시에 포스팅

에 치정보 찾는 에 다

7에 시 는 고 식에 라 저 는 조 포스팅 조 드는 첨 8a 8b에 시 는 같다. , 8a는 조 드 식 고, 8b는 포스팅조 드 식 다.

같 드 식 갖는 조에 여 펴보 , 7비트 헤드 가 는 , 저 2비트는 키 노드에 나타나는 문 에 헤드 , 다 2비트는 노드 시 다. 다 3비

19-6

공개특 특1999-025846

Page 7: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

트는 포스팅 파 에 그 노드 치정보 가 는 스 주 나타낸다.

, 키는 2비트 고 12비트 정 수 는 , 문 숫 , 특수문 , 든 드 여 12비트 나타낼 수 다. 다 키헤드 2비트에 가 펴보 다 1과 같다.

[ 1]

2비트 키신

0 5비트

1 7비트

10 9비트

11 12비트

또 , 키 찬가 2비트 갖는 역시 고 8비트 가 나타내는 , 그 는 래 2에 나타내 다.

[ 2]

2비트 신

0 0비트

1 2비트

10 4비트

11 8비트

, 2에 신 가 '00' 경 는 노드 차 가 1 경 나타내는 것 에 게 다.

또 , 3비트 는 스는 고 24비트 나나태는 , 스 드는 노드 스 차 가 '0' 거나 보다 큰 숫 가 다. 라 , 러 경 런랭스 가 에

게 게 다. 그 고 0 경 에는 헤드 3비트만 뿐, 드에는 실제 당 드가 나타나 는다.

[ 3]

2비트 신

0 0비트

1 6비트

10 8비트

11 10비트

100 12비트

101 16비트

110 24비트

1내 3 조 트라 여 저 는 과정 펴보 는 , 포스팅 파 저 는 과 비슷 다. 나 절에 정보 가 는 든 드들 가 는

단 블 라고 가정 든 블 8 수 비트에 시 여 접 스가 가능 게 다.

또 , 스 미 헤드(Prefix Omission Head)는 4비트 는 , 각 비트 치에 존 는 논 값들 태에 라 나타내는 미가 다 4 같 다 게 나타난다.

[ 4]

스 미 헤드 논 태 미

1 째 비트 블 시 '1', 니 '0' 다.

2 째 비트 드 문 ID가 같 '1', 니 '0' 다.

3 째 비트 드 문단 가 같 '1', 니 '0' 다.

4 째 비트 드 문 가 같 '1', 니 '0' 다.

4에 수 는 같 2, 3, 4 째 비트가 '1' 경 , 각각 드는 나타날 가 다, 그 고 절 는 적 고 주 복 가능 적 므 헤드는 다.

다 드 각각 드에 헤드 조 펴보 , , 문 ID 드 헤드는 2비트

19-7

공개특 특1999-025846

Page 8: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

, 드 크 는 24비트 , 래 5에 시 는 같 다.

[ 5]

2비트 신 크

0 8비트

1 12비트

10 16비트

11 24비트

또 , 문 헤드 문단 헤드 역시 2비트 , 드 드는 고 12비트 래 6에 나타나 는 같다.

[ 6]

2비트 신 크

0 4비트

1 6비트

10 8비트

11 12비트

또 , 절 헤드는 1비트 , 드 드는 고 8비트 , 헤드가 '0' 4비트고, '1' 8비트 다. 또 , 정보 헤드는 블 첫 째 헤드 경 에만 드는 나타난다. , 미 스 헤드 첫 째 헤드 경 에만 드는 나타난다.

본 에 컴퓨 시스 에 전문 정보 검 제 에 각 건들에 여 펴보 므 , 들 시뮬 에 결과

래 들 참조 여 간략히 펴보 다 과 같다.

, 7에 나타낸 실 실험에 퍼스 , 그 종 크 그에 다 절 생 나타내는 것 다.

[ 7]

스퍼 종 크 (Byte) 절수 생 절수

전 전 논문 2,367편 3,589K 97,685 278,727

정보과 논문 1,001편 1,277K 27,331 106,328

보 신문 1,655편 3,263K 67,349 270,591

, 1에 나타낸 같 각각 퍼스에 여 파 들 크 파들 크 에 크 는 래 8에 나타낸 같다.

[ 8]

스퍼 종

포스팅 포스팅

전 전 논문 2,367편 1,851,968 2,094,770 570,320 1,108,195

정보과 논문 1,001편 440,784 799,740 139,717 379,307

보 신문 1,655편 1,253,616 2,038,120 407,895 1,015,702

에 라, 각각 퍼스 들에 에 는 래 9에 나타난 같다.

[ 9]

스퍼 종 조에 원래 문 크 에 비

전 전 논문 2,367편 42.7% 42.8%

정보과 논문 1,001편 41.8% 42.2%

보 신문 1,655편 43.2% 43.6%

19-8

공개특 특1999-025846

Page 9: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

실험 결과에 펴보 , 에 존 는 정보과 퍼스에 가 좋 과 보 , 수식과 가 많 비 차 는 전 전 퍼스에 는 가 나 보 고 다. 그러나, 술 퍼스 종 에 라 38%에 50%내 보 고 는

여, 각 퍼스에 거 42%내 것 수 다.

라 , 술 같 에 에 검 과정에 간 연결 조 첨 9 참조 여 펴보 , 본 에 검 시스 들여

에 그 내 경 여 각각 내 수 다. 문 조 참조 는 조 여 조 제 (첨 2 참조)가

다. 그 고 문 절과 단 치 여 스(Prefix)검 수게 다.

2 9 참조 여 에 검 과정 수 는 주 에 여 펴보 , 가 게 는 에 여 실 가능 내 드 게 다.

본 에 는 본적 에 가 가 다.

가 근접(Proximity ) 검 과 정 검 , 근접 검 문 에 존 는 단 간 거 고 것 , 각각 단 가 문 내에 나 져 존 는가 시 수 다.

러 시 가능 시에 치정보 가 므 가능 다. 본 시스 러 근접검 에 많 과 수 다. 문 에 는 든 절에 검 가능 다. 띄 쓰 에

복 가 문 에 는 경 에 처 가능 다. 정보 검 과 정보 검 에 에 정보 검 또 정보 검 근접 1 검 가능 다.

정 검 경 는 비정 적 문 가 니라 정 문 내 검 는 다.

각각 종 그 종 에 연 에 보 .

첫째, OR 연 수 는 , 본 시스 에 는 연 여 연 | 는, 적 개념에 연 고 다. 또 , AND 연 , ANDNOT 연 - 연 다.

째는 근접 검 , 근접 연 연 본 시스 경 A, B, N 시 , 그 내 A B는 각각 고, N 근접 나타내는 , N 거 에 문 내에 A B가 존

는 경 에 그 문 가 검 다. 또 , 문 내 접근 연 [A, B, sent] 시 , A B는 각각 , 문 내에 경 당 문 가 검 다. 또 , 문단내 접근 연 [A, B,

para] 시 , A B는 각각 , 문 문단내에 경 당 문 가 검다.

정 검 , 정 검 N1,N2,A 태 다. , N1 ID,N2는 드 ID 각각에 는 정 문 에 다. 그 고 A는 문 열 가 찾고 는 것다. 연 순 는 연 에 래에 가 낮 다. 또 , 는

여 연 순 제 수 다.

, 는 Lexical Analysis, Syntax Analysis, Code Generation 등 과정 거쳐 실 드 고 여 검 수 다. 러 과정 첨 10에 시

다. 과 술 고 에 여 고 싶 는 검 여, 다 과 같 만들 수 다.

(과 | 술) ....... 실 1

또는,

([ , 과 , sent]|[ , 술, sent]) ........ 실 2

실 1에 는 첫 째 보다는 실 2에 는 째 가 체 것 다. 게 근접검 과 같 여 가 원 는 문 에 접근 가능

다.

술 내 에 문 검 과정 펴보 , 에 나타나는 들 문 조에 검 여 그 에 문 집 에 정보 가 고 는 것 말 다. 러 문 검 키워드 정보 검 시스 에 는 문 내에 그 키워드가 가 는 가 치 에 나타나는 나 연 에 정규 규칙에 검 는 문 에 순 다. 러 순

는 시스 에 미 고 결과라고 수 다. 전문 정보 검 시스 에 는 문 에 키워드에 가 치에 여 고 는다. 그 는 든 문 에 여 처

므 키워드 식에 -문 가 는다는 것 그 다.

라 , 는 문 에 절 단 고 검 시 단 는 태 단 가 주 므 가 단 매칭 여 Prefix 검 다. 물 복 경 나 조 , 접미등 에 는 단 에 검 는 Infix 검 여 다. Infix 검 문 는 당 저 공간 고 많 탐 시간 다. 그러므 는 Prefix 검 에 만 고 다. 가 (과 │ 술) 라고 다 , 는 저

라는 가 문 집 내 느 문 에 생 는가 검 여 다.

검 여 가 정보 과 포스팅 에 제 여 다. 제는 과정과 비슷 단 과정 순 가 뀌 쉽게 수 다.

19-9

공개특 특1999-025846

Page 10: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

에 는 정보에 찾 여 트라 라 검 게 다. 스 검 에 여 가정 , , , ..., 정보 라는등 절들

검 다.

, 가 찾고 는 것 , , 등과 같 단 조 가 절 다. 만 과 경 에 는 경 는 같다고 볼 수 다. 과 주 , 과 전, 과 술등과 같 절에 미적 가 원 는 것 수 다.

는 에 펴본 것 그 고 문 순 고 퍼 집 (Extended Fuzzy Set) 문 순 결정[참조문 : , 시 러스 는 검 시스쳄 문 순 결정 , 과 술원, 논문, 1993] 여 문 순 다. 검 문 에

절과 스트 차 단 간 미적 차 보 그 절 같는 적 값 다. 그 고 러 검 문 내 절 수 빈 수 계 다 ,

퍼 집 에 여 And, Or, AndNot 연 계 게 다.

술 같 과정에 본 에 컴퓨 시스 에 전문 정보 검 시스 적, 문 고 는 과정에 전문 여 정보 실 , 러

조 시에 조 고 여 저 공간 극 고, 시에 빠 검 능 제공 수 다.

(57) 청

청 1

문 에 포 든 단 에 여 수 고 에 저 문 조 에 여 료 검 는 전문 정보 검 시스 에 에 ,

특정 문 당 문 에 존 는 절 는 절 과;

절 에 절들에 여 각 절들 문 내에 존 는 치 정보 는 치정보 과;

치정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 ;

조 에 역 조 여 문 조 생 시키는 포 는 것 특징 는 전문 정보 검 시스 .

청 2

제 1 에 , 절 당 문 내에 존 는 정 특정 문 절 여 식 는 것 특징 는 전문 정보 검 시스 .

청 3

제 2 에 , 절 에 절 는 특정 문 는 스페 스 단 , . ) ? ' ! ` 탭문 , 문 는 것 특징 는 전

문 정보 검 시스 .

청 4

제 1 에 , 치정보 절 에 각각 절에 여 문 집 에 나 문 여 여 는 문 ID , 당 문 내에 째 문단에

그 절 포 는 가 나타내 문단 , 문단내에 그 절 는 문 치 나타내는 문 , 문 내에 째에 그 절 는 가 나타내는 절 여 는 것

특징 는 전문 정보 검 시스 .

청 5

제 1 또는 제 4 에 , 문단 식 각 문 에는 문단 치 는 종 특정 시문 가 각 문단 에 존 는 것 특징 는

전문 정보 검 시스 .

청 6

제 5 에 , 특정 시문 는 태그(tag) 는 것 특징 는 전문 정보 검 시스 .

청 7

제 6 에 , 태그(tag)는 ;P 태 갖는 것 특징 는 전문 정보 검 시스 .

청 8

19-10

공개특 특1999-025846

Page 11: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

제 4 에 , 치정보 문 여 여 문단내 존 는 문 는 . ? ! 스페 스 탭, 문 조 에 것 특징

는 전문 정보 검 시스 .

청 9

제 1 에 , 조 정보 정보 가 는 , 정보 갖는 동등 물 계층 갖는 제 크(Sibling Link)들과, 각

크들 물 계층에 비 여 단계낮 물 계층에 존 는 식 크(Child Link)들 다 존 엮여 는 트라 (Trie) 조 갖는 것 특징 는 전문 정보 검

시스 .

청 10

제 9 에 , 조 정보에 정보 가 는 각각 제 크(Sibling Link)들 전단에 치 는 에 스 드 스 저 는 포스팅 파

각 치정보만 그 정보 는 것 특징 는 전문 정보 검 시스 .

청 11

제 9 에 , 조에 는 각 들에 드 식 7비트 헤드 가는 , 저 2비트는 키 노드에 나타나는 문 에 헤드 , 다 2비트는 노드 시고, 다 3비트는 포스팅 파 에 당 노드 치정보 가 는 스 주 갖는 것 특징

는 전문 정보 검 시스 .

청 12

제 11 에 , 키는 2비트 문 숫 , 특수문 , 든 드 여 고 12비트 정 수 , 키 헤드 2비트에 는 가 는 키가 '00' 5비트

고, 키가 '01' 7비트 , 키가 '10' 9비트 고, 키가 '11' 12비트 는 것 특징 는 전문 정보 검 시스 .

청 13

제 11 에 , 2 비트 고 8비트 가 나타내는 , 헤드 2비트에 는 가 는 키가 '00' 0비트 고, 키가 '01' 2비트 , 키가 '10'

4비트 고, 키가 '11' 8비트 는 것 특징 는 전문 정보 검 시스 .

청 14

제 13 에 , 신 가 '00' 경 는 노드 차 가 1 경 나타내는 것 특징 는 전문 정보 검 시스 .

청 15

제 11 에 , 3비트 는 스는 고 24비트 나타내는 , 스 드는 노드 스 차 가 '0' 거나 보다 큰 숫 가 므 런랭스 가 에

, 스가 '000' 는 0비트 고, 스가 '001' 는 6비트 , 스가 '010' 는 8비트 고, 스가 '011' 는 10비트 , 스가 '100' 는 12비트 고, 스가 '101' 는 16비트 , 스가 '110'

는 24비트 것 특징 는 전문 정보 검 시스 .

청 16

특정 문 당 문 에 존 는 절 는 절 과, 절 에 절들에 여 각 절들 문 내에 존 는 치 정보 는 치정보 과,

치정보 에 각 절들에 치정보 각 절에 역 조 시키는 조 , 조 에 역 조

여 문 조 생 시키는 포 는 여 문 에 포 든 단에 여 수 고 에 저 문 조 에 여 료 검 는 전문 정보 검 시스 에 전문 정보 검 검 에 :

가 게 는 실 가능 내 드 는 과;

에 드에 여 문 조 검 는 문 조 검 과;

문 조 검 에 검 조 저 는 스 여 조 제 는 조 신 ;

조 신 에 제 문 들 에 드에 는 문 는 문 포 는 것 특징 는 전문 정보 검

검 시스 .

19-11

공개특 특1999-025846

Page 12: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

청 17

제 16 에 , 식과 근접(Proximity ) 검 과 정 검에 식 여 는 것 특징 는 전문 정보 검 검 시

스 .

청 18

제 17 에 , 식에는 OR 연 과, AND 연 ANDNOT 연 수 는 것 특징 는 전문 정보 검 검 시스 .

청 19

제 18 에 , 식에 OR 연 수 는 연 는 | 는 것 특징 는 전문 정보 검 검 시스 .

청 20

제 18 에 , 식에 AND 연 수 는 연 는 는 것 특징 는 전문 정보 검 검 시스 .

청 21

제 18 에 , 식에 ANDNOT 연 수 는 연 는 - 는 것 특징 는 전문 정보 검 검 시스 .

청 22

제 16 에 , 근접 검 식에는 근접 연 과, 문 내 접근 연 문단내 접근 연 수는 것 특징 는 전문 정보 검 검 시스 .

청 23

제 22 에 , 근접 검 식에 근접 연 수 는 연 는 A, B, N 시 , A B는 각각 고, N 근접 나타내는 , N 거 에 문 내에

A B가 존 는 경 에 그 문 가 검 는 것 특징 는 전문 정보 검 검 시스 .

청 24

제 22 에 , 근접 검 식에 문 내 접근 연 수 연 는 [A, B, sent] 시 , A B는 각각 , 문 내에 경 당 문 가 검 는 것 특징 는 전문 정보 검 검 시스 .

청 25

제 22 에 , 근접 검 식에 문단내 접근 연 수 연 는 [A, B, para] 시 , A B는 각각 , 문 문단내에 경 당 문 가 검 는

것 특징 는 전문 정보 검 검 시스 .

청 26

제 16 에 , 정 검 수 연 는 N1,N2,A 태 는 , N1 ID 고 N2는 드 ID A는 문 열 가 찾고 는 , 연 순 는 연 에 래에 가 낮 는 것 특징 는 전문 정보 검 검 시스 .

청 27

제 1 내 제 26 에 나타나 는 든 적 특징에 여 문 검 시 고 문 전문 여 고 검 는 것 특징 는 컴퓨 시스 에 전문 정보 검 시스 .

19-12

공개특 특1999-025846

Page 13: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

1

2

3

19-13

공개특 특1999-025846

Page 14: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

4a

4b

19-14

공개특 특1999-025846

Page 15: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

4c

19-15

공개특 특1999-025846

Page 16: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

4d

5

19-16

공개특 특1999-025846

Page 17: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

6

7

19-17

공개특 특1999-025846

Page 18: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

8a

8b

9

19-18

공개특 특1999-025846

Page 19: (19) 대한민국특허청(KR) (12) 공개특허공보(A)

10

19-19

공개특 특1999-025846


Recommended