54
-1- 중소기업 기술혁신사업 최종보고서 웹디렉토리 검색엔진 기술개발 (Development of Technology for Web Directory Search Engines) 2002 4 30 주관기업 주 레피아컴 :( )

(DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 1 -

중소기업 기술혁신사업

최종보고서

웹디렉토리 검색엔진 기술개발

(Development of Technology for Web

Directory Search Engines)

년 월 일2002 4 30

주관기업 주 레피아컴 ( )

- 2 -

요 약 서 초 록( )

과 제 명웹디렉토리 검색엔진 기술 개발

(Development of Technology for Web Directory Search Engines)

주 관 기 업 주 레피아컴( ) 총괄책임자 김 희 철

개 발 기 간 월2001 05 ~ 2002 02 (10 )

총개발사업비

천원( )

정부출연금 천원56000총개발

사업비천원85744

기업부담금현금 천원12974

현물 천원16770

위탁연구기관

개발참여기업해당사항없음

주요기술용어

개(6~10 )

웹디렉토리 검색엔진 디렉토리엔진 검색 ASP

브로드밴드 로봇 브로드밴드 색인기

기술개발 목표1

본 과제에서는 웹디렉토리 검색엔진의 제반 핵심기술 개발을 통한 웹디렉토리

검색엔진 소프트웨어 및 상용 서비스 시스템을 개발하려고 한다ASP

기술 개발의 목적 및 중요성2

웹검색엔진은 본문 검색기능을 제공하는 장점을 갖지만 인터넷과 같은(full-text)

대규모 정보 환경에 대해서는 정보의 정확성이 결여된다는 단점을 갖으며 웹디

렉토리는 사이트를 주제별로 분류하여 각 사이트에 대한 요약정보를 제공하므로

정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만 그 검색 대상의 범위가

본문 이 아닌 요약정보로 제한되어 검색 대상이 제한성을 받는 단점을(full-text)

갖는다 또한 웹검색엔진은 문서 자동 수집 및 색인 특성으로 인하여 대규모 검

색 대상에 대한 정보검색 시스템 구축에 적합한 성격을 가지며 웹디렉토리는 그

구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로 중규모 이하의 사이트

를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖는다

본 과제에서는 웹디렉토리의 장점인 웹사이트 정보의 정확한 분류 기능과 웹검

색엔진의 장점인 사이트 내부의 전체 웹문서에 대한 본문 검색 기능을 모두 갖

춘 웹디렉토리 검색엔진을 개발하여 사용자들에게 필요한 정보만을 신속하고 일

목요연하게 파악할 수 있도록 해주려고 한다

- 3 -

기술개발의 내용 및 범위3

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의 구조를 텍스-

트로 표현하는데 사용기법 제작- Graph Representation Description Language Description

기술개발Schema Parser기반의 웹디렉토리 트리 편집 기술o UCI

관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수 있는 기능-구축에 사용웹디렉토리 트리 및 노드별 사이트 정보 편집 기능 지원-실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇 모듈의 구현-

에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에 사용-디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록 색인데이터-

를 생성디렉토리 정보화 웹사이트의 정보 도메인 호스트 가 내장된 인덱스 생성 기술- ( )디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬 수 있도록 검색-

서비스 지원을 위한 기술ASP(Application Service Provider)웹디렉토리별 단일 복수 사이트 등록된 웹문서 일반문서 멀티미디어 이미지- ( ) (

사운드 동영상 자료 검색 기능 지원 )

기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어졌으며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스ASP시스템 시제품이 개발되었다

기대 효과5

본 과제를 성공적으로 수행함으로서 웹디렉토리 검색엔진 부문에서 과제개발 참여업체가 국내 외적으로 기술적 우위권을 확보할 수 있게 되었으며 향후 패키ㆍ지 개발과 상용 서비스를 통한 수입대체 및 수출을 달성하려고 한다ASP

- 4 -

목 차

제 장 기술개발 목표1

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

제 절 기술개발의 중요성2

제 절 현재 기술의 문제점 및 기술개발의 목적3

제 장 기술개발의 범위 및 내용3

제 절 기술개발의 범위1

제 절 기술개발 내용2

제 절 시스템 구축 내용3

제 장 기술개발 결과4

제 장 기대효과5

- 5 -

제 장 기술개발 목표1

인터넷과 개인용 의 발전으로 시시각각으로 생성되는 수많은 정보 중에서 필요PC

한 정보만을 신속하고 일목요연하게 파악할 수 있도록 해주는 웹디렉토리엔진과 웹

검색엔진의 필요성은 점차 증대되고 있다

본 과제에서는 웹디렉토리 검색엔진의 개발에 요구되는 제반 핵심기술을 개발한 후

이러한 핵심기술과 과제개발 주관업체가 이미 보유하고 있는 기존 검색엔진 기술

디렉토리엔진 기술을 활용하여 웹디렉토리 검색엔진에 대한 소프트웨어 솔루션 패

키지와 상용 서비스 시스템을 개발하는데 최종목표가 있다ASP

웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹검색엔진을 구성하는 다양한 기술

이 기반기술로 요구되며 이러한 기술을 본 과제의 주관기관인 주 레피아컴뿐만 아( )

니라 많은 검색엔진 관련 업체에서 이미 개발하여 활용하고 있다 그러나 웹디렉토

리 검색엔진 기술은 웹디렉토리엔진 기술과 웹검색엔진 기술뿐만 아니라 새로운 융

합 기술이 요구되므로 여기에 필요한 기술을 본 과제의 개발대상 핵심기술로 선정

했다 표 참조([ 1] )

구 분 내 용 성능 및 규격( )

과제의

최종목표웹디렉토리 검색엔진의 핵심기술 개발o

개발기술

실시간 웹로봇 기술o On-the-fly

웹디렉토리 트리 표현 기술o

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o

기반의 웹디렉토리 트리 편집 기술o UCI

디렉토리 검색 서비스 시스템 구축 기술o ASP

주요용도

활용방안

웹디렉토리 검색엔진 소프트웨어o

웹디렉토리 검색 상용서비스 시스템o ASP

업체에서 그룹웨어 시스템 구축시 컴포넌트 소프트웨어o SI CMS EIP

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 6 -

구분 내 용 성능 및 규격( )

규 격

소프트웨어 구성o

디렉토리 자료 등록 변경 처리기 등록 처리 모듈 변경 처리-

모듈 DB Gateway

디렉토리 신규 변경 자료 추출 모듈 모듈- Loader Document

모듈 모듈Filter Image Filter

관리기 자료 입력 변경 삭제 검색 모듈- Master Category DB

DB Gateway

자료수집 모듈 모듈- Load Distributor Document Loader

모듈 모듈 모듈 URL Extractor Uniqueness Checker

통합 색인기 형태소 분석 모듈 전자사전 모듈 추출- Keyword

모듈 색인 모듈

질의어 처리기 쿼리 프로세스 모듈 연산자 처리 모듈-

검색결과 출력 모듈

시스템 통합 관리 모듈-

지원 플랫폼o

운영체제 이상- Linux 2034

사용자 웹브라우져 이상- Microsoft 5X Netscape

이상Navigator4X

성능 기능ㆍ

사용자 측면o

웹문서 일반문서 이미지 사운드 동영상 디렉토리 서비스-

노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료검색( )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문- (Hwp PPT Excel PDF ) (Full-text)

검색

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능-

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 7 -

구분 내 용 성능 및 규격( )

성능 기능ㆍ

계속( )

관리자 측면 공통o ( )

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

디렉토리 관리자 측면o

디렉토리 서비스 페이지 상 하단 설정 배너광고 게재 가능- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

검색엔진 관리자 측면o

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

동적 페이지 페이지 등 자료 수집 조절- (CGI PHP JSP )

자료수집 속도 조절-

검색대상 카테고리 도메인 호스트 설정- ( )

자료수집 대상 웹사이트 부하 조절-

사용자 인증 필요 자료 수집 정보 관리-

수집 문서 크기 제한-

수집 대상 자료 응답대기 시간 조절-

서버 지원 조절- Proxy

수집 대상 자료 설정- Hops Depth

중복문서 배제 조절 기능- (URL)

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능- ( )

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 8 -

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

현재 인터넷 인트라넷상의 대부분의 정보검색 시스템은 웹검색엔진 기술과 웹디렉

토리엔진 기술을 근간으로 구축되어 사용자에게 검색서비스를 제공하고 있다

사용자가 인터넷 상에서 정보를 신속하게 찾을 수 있도록 도와주는 도구는 키워드

기반의 웹검색엔진으로 부터 시작되었다 주어진 검색어 키워드 를 포함하고 있는 ( )

인터넷 상의 웹문서 정보에 대한 검색기능을 이용자에게 제공하는 검색엔진은

년대 중반에 상업화된 이후에 현재 국내외 대부분의 포탈 및 보탈사이트 뿐만1990

아니라 인트라넷 사이트는 검색엔진을 기반으로 하여 구축한 인터넷 검색 서비스를

제공하고 있으며 인터넷 사용자의 정보검색에 매우 중요한 도구로 자리매김하고 있

다 그러나 이러한 웹검색엔진은 인터넷의 정보의 양의 대규모화되면서 그 효용성

이 낮아지고 있다 그 이유는 주어진 검색 키워드에 대하여 지나치게 많은 량의 문

서정보가 검색 결과로 출력되므로 그 출력이 정보로서의 가치가 저하된다는 점 때

문이다

이러한 문제를 해결하기 위하여 년대 후반부터 웹사이트를 분류 정리하여 제1990 ㆍ

공하는 웹디렉토리가 정보 검색의 중요한 수단으로 활용되기 시작하였다 그 대표

적인 예로서 미국 야후는 사업초기부터 자사의 포탈사이트에 검색엔진보다는 웹디

렉토리를 정보검색 서비스의 근간으로 채택하여 오고있다 웹디렉토리는 일반 인터

넷 검색엔진에 비교하여 볼 때 주제별로 적합한 사이트들을 분류 제공하므로 사용ㆍ

자에게 보다 정확한 최적의 정보를 제공할 수 있다는 장점을 갖는다 이러한 장점

으로 인하여 현재 대부분의 사이트에는 웹디렉토리가 기본적인 웹사이트 디렉토리

뿐만 아니라 상품 카탈로그 디렉토리 등 다양한 형태로 구축되어 활용되고 있으며

향후 이러한 추세는 지속될 것으로 예상된다

웹검색엔진과 웹디렉토리엔진을 검색데이터 구축방법 및 검색기능 관점에서 비교하

여 그 장 단점을 요약하면 표 와 같다[ 2] ㆍ

- 9 -

구분 웹검색엔진 웹디렉토리 엔진

검색대상

자료수집웹로봇을 통한 웹문서 자동수집 관리자가 웹사이트 분류

검색데이터

구축

색인시스템을 기반으로 한

자동색인

관리자 또는 사용자가 각

사이트별 요약정보 작성 및

입력

검색데이터

성격

수집한 웹문서 본문 내용에 대한

다양한 검색

사이트에 대한 요약정보를

대상으로 하는 단순 검색

장점

문서자동수집 및 색인생성으로

인한 대형 검색서비스 구축에 용이

웹문서 본문 내용 검색기능 제공

주제별 분류로 인하여

디렉토리의 사이트 정보가

정확함

단점

검색결과의 양이 지나치게

큼으로 인해 검색결과의 정확성

결여 결여됨

사이트 내의 본문내용 검색이

가능하지 않으므로 검색기증이

제한됨

표 웹검색엔진과 웹디렉토리의 장 단점 비교[ 2] ㆍ

위의 표에서 보는 바와 같이 정보검색에 있어 검색엔진과 웹디렉토리는 그 역할 및

성격은 아래와 같은 두 가지 중요한 점으로 요약될 수 있다

검색 대상 범위의 차이에 기인하여 웹검색엔진과 웹디렉토리는 검색기능 측면에o

서 상호보완적인 관계를 갖는다 즉 웹검색엔진은 본문 검색기능을 제공 (full-text)

하는 장점을 갖지만 인터넷과 같은 대규모 정보 환경에 대해서는 정보의 정확성이

결여된다는 단점을 갖으며 웹디렉토리는 사이트를 주제별로 분류하여 각 사이트에

대한 요약정보를 제공하므로 정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만

그 검색 대상의 범위가 본문 이 아닌 요약정보로 제한되어 검색 대상이 제(full-text)

한성을 받는 단점을 갖는다

시스템 구축 방법의 차이에 기인하여 웹검색엔진과 웹디렉토리는 상호 그 응용부o

문에서도 서로 보완적인 관계를 갖는다 즉 웹검색엔진은 문서 자동 수집 및 색인

특성으로 인하여 대규모 검색 대상에 대한 정보검색 시스템 구축에 적합한 성격을

가지며 웹디렉토리는 그 구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로

중규모 이하의 사이트를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖

는다

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 2: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 2 -

요 약 서 초 록( )

과 제 명웹디렉토리 검색엔진 기술 개발

(Development of Technology for Web Directory Search Engines)

주 관 기 업 주 레피아컴( ) 총괄책임자 김 희 철

개 발 기 간 월2001 05 ~ 2002 02 (10 )

총개발사업비

천원( )

정부출연금 천원56000총개발

사업비천원85744

기업부담금현금 천원12974

현물 천원16770

위탁연구기관

개발참여기업해당사항없음

주요기술용어

개(6~10 )

웹디렉토리 검색엔진 디렉토리엔진 검색 ASP

브로드밴드 로봇 브로드밴드 색인기

기술개발 목표1

본 과제에서는 웹디렉토리 검색엔진의 제반 핵심기술 개발을 통한 웹디렉토리

검색엔진 소프트웨어 및 상용 서비스 시스템을 개발하려고 한다ASP

기술 개발의 목적 및 중요성2

웹검색엔진은 본문 검색기능을 제공하는 장점을 갖지만 인터넷과 같은(full-text)

대규모 정보 환경에 대해서는 정보의 정확성이 결여된다는 단점을 갖으며 웹디

렉토리는 사이트를 주제별로 분류하여 각 사이트에 대한 요약정보를 제공하므로

정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만 그 검색 대상의 범위가

본문 이 아닌 요약정보로 제한되어 검색 대상이 제한성을 받는 단점을(full-text)

갖는다 또한 웹검색엔진은 문서 자동 수집 및 색인 특성으로 인하여 대규모 검

색 대상에 대한 정보검색 시스템 구축에 적합한 성격을 가지며 웹디렉토리는 그

구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로 중규모 이하의 사이트

를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖는다

본 과제에서는 웹디렉토리의 장점인 웹사이트 정보의 정확한 분류 기능과 웹검

색엔진의 장점인 사이트 내부의 전체 웹문서에 대한 본문 검색 기능을 모두 갖

춘 웹디렉토리 검색엔진을 개발하여 사용자들에게 필요한 정보만을 신속하고 일

목요연하게 파악할 수 있도록 해주려고 한다

- 3 -

기술개발의 내용 및 범위3

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의 구조를 텍스-

트로 표현하는데 사용기법 제작- Graph Representation Description Language Description

기술개발Schema Parser기반의 웹디렉토리 트리 편집 기술o UCI

관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수 있는 기능-구축에 사용웹디렉토리 트리 및 노드별 사이트 정보 편집 기능 지원-실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇 모듈의 구현-

에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에 사용-디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록 색인데이터-

를 생성디렉토리 정보화 웹사이트의 정보 도메인 호스트 가 내장된 인덱스 생성 기술- ( )디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬 수 있도록 검색-

서비스 지원을 위한 기술ASP(Application Service Provider)웹디렉토리별 단일 복수 사이트 등록된 웹문서 일반문서 멀티미디어 이미지- ( ) (

사운드 동영상 자료 검색 기능 지원 )

기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어졌으며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스ASP시스템 시제품이 개발되었다

기대 효과5

본 과제를 성공적으로 수행함으로서 웹디렉토리 검색엔진 부문에서 과제개발 참여업체가 국내 외적으로 기술적 우위권을 확보할 수 있게 되었으며 향후 패키ㆍ지 개발과 상용 서비스를 통한 수입대체 및 수출을 달성하려고 한다ASP

- 4 -

목 차

제 장 기술개발 목표1

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

제 절 기술개발의 중요성2

제 절 현재 기술의 문제점 및 기술개발의 목적3

제 장 기술개발의 범위 및 내용3

제 절 기술개발의 범위1

제 절 기술개발 내용2

제 절 시스템 구축 내용3

제 장 기술개발 결과4

제 장 기대효과5

- 5 -

제 장 기술개발 목표1

인터넷과 개인용 의 발전으로 시시각각으로 생성되는 수많은 정보 중에서 필요PC

한 정보만을 신속하고 일목요연하게 파악할 수 있도록 해주는 웹디렉토리엔진과 웹

검색엔진의 필요성은 점차 증대되고 있다

본 과제에서는 웹디렉토리 검색엔진의 개발에 요구되는 제반 핵심기술을 개발한 후

이러한 핵심기술과 과제개발 주관업체가 이미 보유하고 있는 기존 검색엔진 기술

디렉토리엔진 기술을 활용하여 웹디렉토리 검색엔진에 대한 소프트웨어 솔루션 패

키지와 상용 서비스 시스템을 개발하는데 최종목표가 있다ASP

웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹검색엔진을 구성하는 다양한 기술

이 기반기술로 요구되며 이러한 기술을 본 과제의 주관기관인 주 레피아컴뿐만 아( )

니라 많은 검색엔진 관련 업체에서 이미 개발하여 활용하고 있다 그러나 웹디렉토

리 검색엔진 기술은 웹디렉토리엔진 기술과 웹검색엔진 기술뿐만 아니라 새로운 융

합 기술이 요구되므로 여기에 필요한 기술을 본 과제의 개발대상 핵심기술로 선정

했다 표 참조([ 1] )

구 분 내 용 성능 및 규격( )

과제의

최종목표웹디렉토리 검색엔진의 핵심기술 개발o

개발기술

실시간 웹로봇 기술o On-the-fly

웹디렉토리 트리 표현 기술o

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o

기반의 웹디렉토리 트리 편집 기술o UCI

디렉토리 검색 서비스 시스템 구축 기술o ASP

주요용도

활용방안

웹디렉토리 검색엔진 소프트웨어o

웹디렉토리 검색 상용서비스 시스템o ASP

업체에서 그룹웨어 시스템 구축시 컴포넌트 소프트웨어o SI CMS EIP

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 6 -

구분 내 용 성능 및 규격( )

규 격

소프트웨어 구성o

디렉토리 자료 등록 변경 처리기 등록 처리 모듈 변경 처리-

모듈 DB Gateway

디렉토리 신규 변경 자료 추출 모듈 모듈- Loader Document

모듈 모듈Filter Image Filter

관리기 자료 입력 변경 삭제 검색 모듈- Master Category DB

DB Gateway

자료수집 모듈 모듈- Load Distributor Document Loader

모듈 모듈 모듈 URL Extractor Uniqueness Checker

통합 색인기 형태소 분석 모듈 전자사전 모듈 추출- Keyword

모듈 색인 모듈

질의어 처리기 쿼리 프로세스 모듈 연산자 처리 모듈-

검색결과 출력 모듈

시스템 통합 관리 모듈-

지원 플랫폼o

운영체제 이상- Linux 2034

사용자 웹브라우져 이상- Microsoft 5X Netscape

이상Navigator4X

성능 기능ㆍ

사용자 측면o

웹문서 일반문서 이미지 사운드 동영상 디렉토리 서비스-

노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료검색( )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문- (Hwp PPT Excel PDF ) (Full-text)

검색

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능-

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 7 -

구분 내 용 성능 및 규격( )

성능 기능ㆍ

계속( )

관리자 측면 공통o ( )

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

디렉토리 관리자 측면o

디렉토리 서비스 페이지 상 하단 설정 배너광고 게재 가능- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

검색엔진 관리자 측면o

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

동적 페이지 페이지 등 자료 수집 조절- (CGI PHP JSP )

자료수집 속도 조절-

검색대상 카테고리 도메인 호스트 설정- ( )

자료수집 대상 웹사이트 부하 조절-

사용자 인증 필요 자료 수집 정보 관리-

수집 문서 크기 제한-

수집 대상 자료 응답대기 시간 조절-

서버 지원 조절- Proxy

수집 대상 자료 설정- Hops Depth

중복문서 배제 조절 기능- (URL)

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능- ( )

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 8 -

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

현재 인터넷 인트라넷상의 대부분의 정보검색 시스템은 웹검색엔진 기술과 웹디렉

토리엔진 기술을 근간으로 구축되어 사용자에게 검색서비스를 제공하고 있다

사용자가 인터넷 상에서 정보를 신속하게 찾을 수 있도록 도와주는 도구는 키워드

기반의 웹검색엔진으로 부터 시작되었다 주어진 검색어 키워드 를 포함하고 있는 ( )

인터넷 상의 웹문서 정보에 대한 검색기능을 이용자에게 제공하는 검색엔진은

년대 중반에 상업화된 이후에 현재 국내외 대부분의 포탈 및 보탈사이트 뿐만1990

아니라 인트라넷 사이트는 검색엔진을 기반으로 하여 구축한 인터넷 검색 서비스를

제공하고 있으며 인터넷 사용자의 정보검색에 매우 중요한 도구로 자리매김하고 있

다 그러나 이러한 웹검색엔진은 인터넷의 정보의 양의 대규모화되면서 그 효용성

이 낮아지고 있다 그 이유는 주어진 검색 키워드에 대하여 지나치게 많은 량의 문

서정보가 검색 결과로 출력되므로 그 출력이 정보로서의 가치가 저하된다는 점 때

문이다

이러한 문제를 해결하기 위하여 년대 후반부터 웹사이트를 분류 정리하여 제1990 ㆍ

공하는 웹디렉토리가 정보 검색의 중요한 수단으로 활용되기 시작하였다 그 대표

적인 예로서 미국 야후는 사업초기부터 자사의 포탈사이트에 검색엔진보다는 웹디

렉토리를 정보검색 서비스의 근간으로 채택하여 오고있다 웹디렉토리는 일반 인터

넷 검색엔진에 비교하여 볼 때 주제별로 적합한 사이트들을 분류 제공하므로 사용ㆍ

자에게 보다 정확한 최적의 정보를 제공할 수 있다는 장점을 갖는다 이러한 장점

으로 인하여 현재 대부분의 사이트에는 웹디렉토리가 기본적인 웹사이트 디렉토리

뿐만 아니라 상품 카탈로그 디렉토리 등 다양한 형태로 구축되어 활용되고 있으며

향후 이러한 추세는 지속될 것으로 예상된다

웹검색엔진과 웹디렉토리엔진을 검색데이터 구축방법 및 검색기능 관점에서 비교하

여 그 장 단점을 요약하면 표 와 같다[ 2] ㆍ

- 9 -

구분 웹검색엔진 웹디렉토리 엔진

검색대상

자료수집웹로봇을 통한 웹문서 자동수집 관리자가 웹사이트 분류

검색데이터

구축

색인시스템을 기반으로 한

자동색인

관리자 또는 사용자가 각

사이트별 요약정보 작성 및

입력

검색데이터

성격

수집한 웹문서 본문 내용에 대한

다양한 검색

사이트에 대한 요약정보를

대상으로 하는 단순 검색

장점

문서자동수집 및 색인생성으로

인한 대형 검색서비스 구축에 용이

웹문서 본문 내용 검색기능 제공

주제별 분류로 인하여

디렉토리의 사이트 정보가

정확함

단점

검색결과의 양이 지나치게

큼으로 인해 검색결과의 정확성

결여 결여됨

사이트 내의 본문내용 검색이

가능하지 않으므로 검색기증이

제한됨

표 웹검색엔진과 웹디렉토리의 장 단점 비교[ 2] ㆍ

위의 표에서 보는 바와 같이 정보검색에 있어 검색엔진과 웹디렉토리는 그 역할 및

성격은 아래와 같은 두 가지 중요한 점으로 요약될 수 있다

검색 대상 범위의 차이에 기인하여 웹검색엔진과 웹디렉토리는 검색기능 측면에o

서 상호보완적인 관계를 갖는다 즉 웹검색엔진은 본문 검색기능을 제공 (full-text)

하는 장점을 갖지만 인터넷과 같은 대규모 정보 환경에 대해서는 정보의 정확성이

결여된다는 단점을 갖으며 웹디렉토리는 사이트를 주제별로 분류하여 각 사이트에

대한 요약정보를 제공하므로 정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만

그 검색 대상의 범위가 본문 이 아닌 요약정보로 제한되어 검색 대상이 제(full-text)

한성을 받는 단점을 갖는다

시스템 구축 방법의 차이에 기인하여 웹검색엔진과 웹디렉토리는 상호 그 응용부o

문에서도 서로 보완적인 관계를 갖는다 즉 웹검색엔진은 문서 자동 수집 및 색인

특성으로 인하여 대규모 검색 대상에 대한 정보검색 시스템 구축에 적합한 성격을

가지며 웹디렉토리는 그 구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로

중규모 이하의 사이트를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖

는다

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 3: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 3 -

기술개발의 내용 및 범위3

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의 구조를 텍스-

트로 표현하는데 사용기법 제작- Graph Representation Description Language Description

기술개발Schema Parser기반의 웹디렉토리 트리 편집 기술o UCI

관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수 있는 기능-구축에 사용웹디렉토리 트리 및 노드별 사이트 정보 편집 기능 지원-실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇 모듈의 구현-

에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에 사용-디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록 색인데이터-

를 생성디렉토리 정보화 웹사이트의 정보 도메인 호스트 가 내장된 인덱스 생성 기술- ( )디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬 수 있도록 검색-

서비스 지원을 위한 기술ASP(Application Service Provider)웹디렉토리별 단일 복수 사이트 등록된 웹문서 일반문서 멀티미디어 이미지- ( ) (

사운드 동영상 자료 검색 기능 지원 )

기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어졌으며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스ASP시스템 시제품이 개발되었다

기대 효과5

본 과제를 성공적으로 수행함으로서 웹디렉토리 검색엔진 부문에서 과제개발 참여업체가 국내 외적으로 기술적 우위권을 확보할 수 있게 되었으며 향후 패키ㆍ지 개발과 상용 서비스를 통한 수입대체 및 수출을 달성하려고 한다ASP

- 4 -

목 차

제 장 기술개발 목표1

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

제 절 기술개발의 중요성2

제 절 현재 기술의 문제점 및 기술개발의 목적3

제 장 기술개발의 범위 및 내용3

제 절 기술개발의 범위1

제 절 기술개발 내용2

제 절 시스템 구축 내용3

제 장 기술개발 결과4

제 장 기대효과5

- 5 -

제 장 기술개발 목표1

인터넷과 개인용 의 발전으로 시시각각으로 생성되는 수많은 정보 중에서 필요PC

한 정보만을 신속하고 일목요연하게 파악할 수 있도록 해주는 웹디렉토리엔진과 웹

검색엔진의 필요성은 점차 증대되고 있다

본 과제에서는 웹디렉토리 검색엔진의 개발에 요구되는 제반 핵심기술을 개발한 후

이러한 핵심기술과 과제개발 주관업체가 이미 보유하고 있는 기존 검색엔진 기술

디렉토리엔진 기술을 활용하여 웹디렉토리 검색엔진에 대한 소프트웨어 솔루션 패

키지와 상용 서비스 시스템을 개발하는데 최종목표가 있다ASP

웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹검색엔진을 구성하는 다양한 기술

이 기반기술로 요구되며 이러한 기술을 본 과제의 주관기관인 주 레피아컴뿐만 아( )

니라 많은 검색엔진 관련 업체에서 이미 개발하여 활용하고 있다 그러나 웹디렉토

리 검색엔진 기술은 웹디렉토리엔진 기술과 웹검색엔진 기술뿐만 아니라 새로운 융

합 기술이 요구되므로 여기에 필요한 기술을 본 과제의 개발대상 핵심기술로 선정

했다 표 참조([ 1] )

구 분 내 용 성능 및 규격( )

과제의

최종목표웹디렉토리 검색엔진의 핵심기술 개발o

개발기술

실시간 웹로봇 기술o On-the-fly

웹디렉토리 트리 표현 기술o

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o

기반의 웹디렉토리 트리 편집 기술o UCI

디렉토리 검색 서비스 시스템 구축 기술o ASP

주요용도

활용방안

웹디렉토리 검색엔진 소프트웨어o

웹디렉토리 검색 상용서비스 시스템o ASP

업체에서 그룹웨어 시스템 구축시 컴포넌트 소프트웨어o SI CMS EIP

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 6 -

구분 내 용 성능 및 규격( )

규 격

소프트웨어 구성o

디렉토리 자료 등록 변경 처리기 등록 처리 모듈 변경 처리-

모듈 DB Gateway

디렉토리 신규 변경 자료 추출 모듈 모듈- Loader Document

모듈 모듈Filter Image Filter

관리기 자료 입력 변경 삭제 검색 모듈- Master Category DB

DB Gateway

자료수집 모듈 모듈- Load Distributor Document Loader

모듈 모듈 모듈 URL Extractor Uniqueness Checker

통합 색인기 형태소 분석 모듈 전자사전 모듈 추출- Keyword

모듈 색인 모듈

질의어 처리기 쿼리 프로세스 모듈 연산자 처리 모듈-

검색결과 출력 모듈

시스템 통합 관리 모듈-

지원 플랫폼o

운영체제 이상- Linux 2034

사용자 웹브라우져 이상- Microsoft 5X Netscape

이상Navigator4X

성능 기능ㆍ

사용자 측면o

웹문서 일반문서 이미지 사운드 동영상 디렉토리 서비스-

노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료검색( )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문- (Hwp PPT Excel PDF ) (Full-text)

검색

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능-

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 7 -

구분 내 용 성능 및 규격( )

성능 기능ㆍ

계속( )

관리자 측면 공통o ( )

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

디렉토리 관리자 측면o

디렉토리 서비스 페이지 상 하단 설정 배너광고 게재 가능- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

검색엔진 관리자 측면o

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

동적 페이지 페이지 등 자료 수집 조절- (CGI PHP JSP )

자료수집 속도 조절-

검색대상 카테고리 도메인 호스트 설정- ( )

자료수집 대상 웹사이트 부하 조절-

사용자 인증 필요 자료 수집 정보 관리-

수집 문서 크기 제한-

수집 대상 자료 응답대기 시간 조절-

서버 지원 조절- Proxy

수집 대상 자료 설정- Hops Depth

중복문서 배제 조절 기능- (URL)

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능- ( )

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 8 -

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

현재 인터넷 인트라넷상의 대부분의 정보검색 시스템은 웹검색엔진 기술과 웹디렉

토리엔진 기술을 근간으로 구축되어 사용자에게 검색서비스를 제공하고 있다

사용자가 인터넷 상에서 정보를 신속하게 찾을 수 있도록 도와주는 도구는 키워드

기반의 웹검색엔진으로 부터 시작되었다 주어진 검색어 키워드 를 포함하고 있는 ( )

인터넷 상의 웹문서 정보에 대한 검색기능을 이용자에게 제공하는 검색엔진은

년대 중반에 상업화된 이후에 현재 국내외 대부분의 포탈 및 보탈사이트 뿐만1990

아니라 인트라넷 사이트는 검색엔진을 기반으로 하여 구축한 인터넷 검색 서비스를

제공하고 있으며 인터넷 사용자의 정보검색에 매우 중요한 도구로 자리매김하고 있

다 그러나 이러한 웹검색엔진은 인터넷의 정보의 양의 대규모화되면서 그 효용성

이 낮아지고 있다 그 이유는 주어진 검색 키워드에 대하여 지나치게 많은 량의 문

서정보가 검색 결과로 출력되므로 그 출력이 정보로서의 가치가 저하된다는 점 때

문이다

이러한 문제를 해결하기 위하여 년대 후반부터 웹사이트를 분류 정리하여 제1990 ㆍ

공하는 웹디렉토리가 정보 검색의 중요한 수단으로 활용되기 시작하였다 그 대표

적인 예로서 미국 야후는 사업초기부터 자사의 포탈사이트에 검색엔진보다는 웹디

렉토리를 정보검색 서비스의 근간으로 채택하여 오고있다 웹디렉토리는 일반 인터

넷 검색엔진에 비교하여 볼 때 주제별로 적합한 사이트들을 분류 제공하므로 사용ㆍ

자에게 보다 정확한 최적의 정보를 제공할 수 있다는 장점을 갖는다 이러한 장점

으로 인하여 현재 대부분의 사이트에는 웹디렉토리가 기본적인 웹사이트 디렉토리

뿐만 아니라 상품 카탈로그 디렉토리 등 다양한 형태로 구축되어 활용되고 있으며

향후 이러한 추세는 지속될 것으로 예상된다

웹검색엔진과 웹디렉토리엔진을 검색데이터 구축방법 및 검색기능 관점에서 비교하

여 그 장 단점을 요약하면 표 와 같다[ 2] ㆍ

- 9 -

구분 웹검색엔진 웹디렉토리 엔진

검색대상

자료수집웹로봇을 통한 웹문서 자동수집 관리자가 웹사이트 분류

검색데이터

구축

색인시스템을 기반으로 한

자동색인

관리자 또는 사용자가 각

사이트별 요약정보 작성 및

입력

검색데이터

성격

수집한 웹문서 본문 내용에 대한

다양한 검색

사이트에 대한 요약정보를

대상으로 하는 단순 검색

장점

문서자동수집 및 색인생성으로

인한 대형 검색서비스 구축에 용이

웹문서 본문 내용 검색기능 제공

주제별 분류로 인하여

디렉토리의 사이트 정보가

정확함

단점

검색결과의 양이 지나치게

큼으로 인해 검색결과의 정확성

결여 결여됨

사이트 내의 본문내용 검색이

가능하지 않으므로 검색기증이

제한됨

표 웹검색엔진과 웹디렉토리의 장 단점 비교[ 2] ㆍ

위의 표에서 보는 바와 같이 정보검색에 있어 검색엔진과 웹디렉토리는 그 역할 및

성격은 아래와 같은 두 가지 중요한 점으로 요약될 수 있다

검색 대상 범위의 차이에 기인하여 웹검색엔진과 웹디렉토리는 검색기능 측면에o

서 상호보완적인 관계를 갖는다 즉 웹검색엔진은 본문 검색기능을 제공 (full-text)

하는 장점을 갖지만 인터넷과 같은 대규모 정보 환경에 대해서는 정보의 정확성이

결여된다는 단점을 갖으며 웹디렉토리는 사이트를 주제별로 분류하여 각 사이트에

대한 요약정보를 제공하므로 정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만

그 검색 대상의 범위가 본문 이 아닌 요약정보로 제한되어 검색 대상이 제(full-text)

한성을 받는 단점을 갖는다

시스템 구축 방법의 차이에 기인하여 웹검색엔진과 웹디렉토리는 상호 그 응용부o

문에서도 서로 보완적인 관계를 갖는다 즉 웹검색엔진은 문서 자동 수집 및 색인

특성으로 인하여 대규모 검색 대상에 대한 정보검색 시스템 구축에 적합한 성격을

가지며 웹디렉토리는 그 구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로

중규모 이하의 사이트를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖

는다

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 4: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 4 -

목 차

제 장 기술개발 목표1

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

제 절 기술개발의 중요성2

제 절 현재 기술의 문제점 및 기술개발의 목적3

제 장 기술개발의 범위 및 내용3

제 절 기술개발의 범위1

제 절 기술개발 내용2

제 절 시스템 구축 내용3

제 장 기술개발 결과4

제 장 기대효과5

- 5 -

제 장 기술개발 목표1

인터넷과 개인용 의 발전으로 시시각각으로 생성되는 수많은 정보 중에서 필요PC

한 정보만을 신속하고 일목요연하게 파악할 수 있도록 해주는 웹디렉토리엔진과 웹

검색엔진의 필요성은 점차 증대되고 있다

본 과제에서는 웹디렉토리 검색엔진의 개발에 요구되는 제반 핵심기술을 개발한 후

이러한 핵심기술과 과제개발 주관업체가 이미 보유하고 있는 기존 검색엔진 기술

디렉토리엔진 기술을 활용하여 웹디렉토리 검색엔진에 대한 소프트웨어 솔루션 패

키지와 상용 서비스 시스템을 개발하는데 최종목표가 있다ASP

웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹검색엔진을 구성하는 다양한 기술

이 기반기술로 요구되며 이러한 기술을 본 과제의 주관기관인 주 레피아컴뿐만 아( )

니라 많은 검색엔진 관련 업체에서 이미 개발하여 활용하고 있다 그러나 웹디렉토

리 검색엔진 기술은 웹디렉토리엔진 기술과 웹검색엔진 기술뿐만 아니라 새로운 융

합 기술이 요구되므로 여기에 필요한 기술을 본 과제의 개발대상 핵심기술로 선정

했다 표 참조([ 1] )

구 분 내 용 성능 및 규격( )

과제의

최종목표웹디렉토리 검색엔진의 핵심기술 개발o

개발기술

실시간 웹로봇 기술o On-the-fly

웹디렉토리 트리 표현 기술o

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o

기반의 웹디렉토리 트리 편집 기술o UCI

디렉토리 검색 서비스 시스템 구축 기술o ASP

주요용도

활용방안

웹디렉토리 검색엔진 소프트웨어o

웹디렉토리 검색 상용서비스 시스템o ASP

업체에서 그룹웨어 시스템 구축시 컴포넌트 소프트웨어o SI CMS EIP

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 6 -

구분 내 용 성능 및 규격( )

규 격

소프트웨어 구성o

디렉토리 자료 등록 변경 처리기 등록 처리 모듈 변경 처리-

모듈 DB Gateway

디렉토리 신규 변경 자료 추출 모듈 모듈- Loader Document

모듈 모듈Filter Image Filter

관리기 자료 입력 변경 삭제 검색 모듈- Master Category DB

DB Gateway

자료수집 모듈 모듈- Load Distributor Document Loader

모듈 모듈 모듈 URL Extractor Uniqueness Checker

통합 색인기 형태소 분석 모듈 전자사전 모듈 추출- Keyword

모듈 색인 모듈

질의어 처리기 쿼리 프로세스 모듈 연산자 처리 모듈-

검색결과 출력 모듈

시스템 통합 관리 모듈-

지원 플랫폼o

운영체제 이상- Linux 2034

사용자 웹브라우져 이상- Microsoft 5X Netscape

이상Navigator4X

성능 기능ㆍ

사용자 측면o

웹문서 일반문서 이미지 사운드 동영상 디렉토리 서비스-

노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료검색( )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문- (Hwp PPT Excel PDF ) (Full-text)

검색

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능-

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 7 -

구분 내 용 성능 및 규격( )

성능 기능ㆍ

계속( )

관리자 측면 공통o ( )

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

디렉토리 관리자 측면o

디렉토리 서비스 페이지 상 하단 설정 배너광고 게재 가능- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

검색엔진 관리자 측면o

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

동적 페이지 페이지 등 자료 수집 조절- (CGI PHP JSP )

자료수집 속도 조절-

검색대상 카테고리 도메인 호스트 설정- ( )

자료수집 대상 웹사이트 부하 조절-

사용자 인증 필요 자료 수집 정보 관리-

수집 문서 크기 제한-

수집 대상 자료 응답대기 시간 조절-

서버 지원 조절- Proxy

수집 대상 자료 설정- Hops Depth

중복문서 배제 조절 기능- (URL)

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능- ( )

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 8 -

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

현재 인터넷 인트라넷상의 대부분의 정보검색 시스템은 웹검색엔진 기술과 웹디렉

토리엔진 기술을 근간으로 구축되어 사용자에게 검색서비스를 제공하고 있다

사용자가 인터넷 상에서 정보를 신속하게 찾을 수 있도록 도와주는 도구는 키워드

기반의 웹검색엔진으로 부터 시작되었다 주어진 검색어 키워드 를 포함하고 있는 ( )

인터넷 상의 웹문서 정보에 대한 검색기능을 이용자에게 제공하는 검색엔진은

년대 중반에 상업화된 이후에 현재 국내외 대부분의 포탈 및 보탈사이트 뿐만1990

아니라 인트라넷 사이트는 검색엔진을 기반으로 하여 구축한 인터넷 검색 서비스를

제공하고 있으며 인터넷 사용자의 정보검색에 매우 중요한 도구로 자리매김하고 있

다 그러나 이러한 웹검색엔진은 인터넷의 정보의 양의 대규모화되면서 그 효용성

이 낮아지고 있다 그 이유는 주어진 검색 키워드에 대하여 지나치게 많은 량의 문

서정보가 검색 결과로 출력되므로 그 출력이 정보로서의 가치가 저하된다는 점 때

문이다

이러한 문제를 해결하기 위하여 년대 후반부터 웹사이트를 분류 정리하여 제1990 ㆍ

공하는 웹디렉토리가 정보 검색의 중요한 수단으로 활용되기 시작하였다 그 대표

적인 예로서 미국 야후는 사업초기부터 자사의 포탈사이트에 검색엔진보다는 웹디

렉토리를 정보검색 서비스의 근간으로 채택하여 오고있다 웹디렉토리는 일반 인터

넷 검색엔진에 비교하여 볼 때 주제별로 적합한 사이트들을 분류 제공하므로 사용ㆍ

자에게 보다 정확한 최적의 정보를 제공할 수 있다는 장점을 갖는다 이러한 장점

으로 인하여 현재 대부분의 사이트에는 웹디렉토리가 기본적인 웹사이트 디렉토리

뿐만 아니라 상품 카탈로그 디렉토리 등 다양한 형태로 구축되어 활용되고 있으며

향후 이러한 추세는 지속될 것으로 예상된다

웹검색엔진과 웹디렉토리엔진을 검색데이터 구축방법 및 검색기능 관점에서 비교하

여 그 장 단점을 요약하면 표 와 같다[ 2] ㆍ

- 9 -

구분 웹검색엔진 웹디렉토리 엔진

검색대상

자료수집웹로봇을 통한 웹문서 자동수집 관리자가 웹사이트 분류

검색데이터

구축

색인시스템을 기반으로 한

자동색인

관리자 또는 사용자가 각

사이트별 요약정보 작성 및

입력

검색데이터

성격

수집한 웹문서 본문 내용에 대한

다양한 검색

사이트에 대한 요약정보를

대상으로 하는 단순 검색

장점

문서자동수집 및 색인생성으로

인한 대형 검색서비스 구축에 용이

웹문서 본문 내용 검색기능 제공

주제별 분류로 인하여

디렉토리의 사이트 정보가

정확함

단점

검색결과의 양이 지나치게

큼으로 인해 검색결과의 정확성

결여 결여됨

사이트 내의 본문내용 검색이

가능하지 않으므로 검색기증이

제한됨

표 웹검색엔진과 웹디렉토리의 장 단점 비교[ 2] ㆍ

위의 표에서 보는 바와 같이 정보검색에 있어 검색엔진과 웹디렉토리는 그 역할 및

성격은 아래와 같은 두 가지 중요한 점으로 요약될 수 있다

검색 대상 범위의 차이에 기인하여 웹검색엔진과 웹디렉토리는 검색기능 측면에o

서 상호보완적인 관계를 갖는다 즉 웹검색엔진은 본문 검색기능을 제공 (full-text)

하는 장점을 갖지만 인터넷과 같은 대규모 정보 환경에 대해서는 정보의 정확성이

결여된다는 단점을 갖으며 웹디렉토리는 사이트를 주제별로 분류하여 각 사이트에

대한 요약정보를 제공하므로 정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만

그 검색 대상의 범위가 본문 이 아닌 요약정보로 제한되어 검색 대상이 제(full-text)

한성을 받는 단점을 갖는다

시스템 구축 방법의 차이에 기인하여 웹검색엔진과 웹디렉토리는 상호 그 응용부o

문에서도 서로 보완적인 관계를 갖는다 즉 웹검색엔진은 문서 자동 수집 및 색인

특성으로 인하여 대규모 검색 대상에 대한 정보검색 시스템 구축에 적합한 성격을

가지며 웹디렉토리는 그 구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로

중규모 이하의 사이트를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖

는다

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 5: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 5 -

제 장 기술개발 목표1

인터넷과 개인용 의 발전으로 시시각각으로 생성되는 수많은 정보 중에서 필요PC

한 정보만을 신속하고 일목요연하게 파악할 수 있도록 해주는 웹디렉토리엔진과 웹

검색엔진의 필요성은 점차 증대되고 있다

본 과제에서는 웹디렉토리 검색엔진의 개발에 요구되는 제반 핵심기술을 개발한 후

이러한 핵심기술과 과제개발 주관업체가 이미 보유하고 있는 기존 검색엔진 기술

디렉토리엔진 기술을 활용하여 웹디렉토리 검색엔진에 대한 소프트웨어 솔루션 패

키지와 상용 서비스 시스템을 개발하는데 최종목표가 있다ASP

웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹검색엔진을 구성하는 다양한 기술

이 기반기술로 요구되며 이러한 기술을 본 과제의 주관기관인 주 레피아컴뿐만 아( )

니라 많은 검색엔진 관련 업체에서 이미 개발하여 활용하고 있다 그러나 웹디렉토

리 검색엔진 기술은 웹디렉토리엔진 기술과 웹검색엔진 기술뿐만 아니라 새로운 융

합 기술이 요구되므로 여기에 필요한 기술을 본 과제의 개발대상 핵심기술로 선정

했다 표 참조([ 1] )

구 분 내 용 성능 및 규격( )

과제의

최종목표웹디렉토리 검색엔진의 핵심기술 개발o

개발기술

실시간 웹로봇 기술o On-the-fly

웹디렉토리 트리 표현 기술o

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o

기반의 웹디렉토리 트리 편집 기술o UCI

디렉토리 검색 서비스 시스템 구축 기술o ASP

주요용도

활용방안

웹디렉토리 검색엔진 소프트웨어o

웹디렉토리 검색 상용서비스 시스템o ASP

업체에서 그룹웨어 시스템 구축시 컴포넌트 소프트웨어o SI CMS EIP

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 6 -

구분 내 용 성능 및 규격( )

규 격

소프트웨어 구성o

디렉토리 자료 등록 변경 처리기 등록 처리 모듈 변경 처리-

모듈 DB Gateway

디렉토리 신규 변경 자료 추출 모듈 모듈- Loader Document

모듈 모듈Filter Image Filter

관리기 자료 입력 변경 삭제 검색 모듈- Master Category DB

DB Gateway

자료수집 모듈 모듈- Load Distributor Document Loader

모듈 모듈 모듈 URL Extractor Uniqueness Checker

통합 색인기 형태소 분석 모듈 전자사전 모듈 추출- Keyword

모듈 색인 모듈

질의어 처리기 쿼리 프로세스 모듈 연산자 처리 모듈-

검색결과 출력 모듈

시스템 통합 관리 모듈-

지원 플랫폼o

운영체제 이상- Linux 2034

사용자 웹브라우져 이상- Microsoft 5X Netscape

이상Navigator4X

성능 기능ㆍ

사용자 측면o

웹문서 일반문서 이미지 사운드 동영상 디렉토리 서비스-

노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료검색( )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문- (Hwp PPT Excel PDF ) (Full-text)

검색

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능-

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 7 -

구분 내 용 성능 및 규격( )

성능 기능ㆍ

계속( )

관리자 측면 공통o ( )

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

디렉토리 관리자 측면o

디렉토리 서비스 페이지 상 하단 설정 배너광고 게재 가능- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

검색엔진 관리자 측면o

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

동적 페이지 페이지 등 자료 수집 조절- (CGI PHP JSP )

자료수집 속도 조절-

검색대상 카테고리 도메인 호스트 설정- ( )

자료수집 대상 웹사이트 부하 조절-

사용자 인증 필요 자료 수집 정보 관리-

수집 문서 크기 제한-

수집 대상 자료 응답대기 시간 조절-

서버 지원 조절- Proxy

수집 대상 자료 설정- Hops Depth

중복문서 배제 조절 기능- (URL)

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능- ( )

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 8 -

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

현재 인터넷 인트라넷상의 대부분의 정보검색 시스템은 웹검색엔진 기술과 웹디렉

토리엔진 기술을 근간으로 구축되어 사용자에게 검색서비스를 제공하고 있다

사용자가 인터넷 상에서 정보를 신속하게 찾을 수 있도록 도와주는 도구는 키워드

기반의 웹검색엔진으로 부터 시작되었다 주어진 검색어 키워드 를 포함하고 있는 ( )

인터넷 상의 웹문서 정보에 대한 검색기능을 이용자에게 제공하는 검색엔진은

년대 중반에 상업화된 이후에 현재 국내외 대부분의 포탈 및 보탈사이트 뿐만1990

아니라 인트라넷 사이트는 검색엔진을 기반으로 하여 구축한 인터넷 검색 서비스를

제공하고 있으며 인터넷 사용자의 정보검색에 매우 중요한 도구로 자리매김하고 있

다 그러나 이러한 웹검색엔진은 인터넷의 정보의 양의 대규모화되면서 그 효용성

이 낮아지고 있다 그 이유는 주어진 검색 키워드에 대하여 지나치게 많은 량의 문

서정보가 검색 결과로 출력되므로 그 출력이 정보로서의 가치가 저하된다는 점 때

문이다

이러한 문제를 해결하기 위하여 년대 후반부터 웹사이트를 분류 정리하여 제1990 ㆍ

공하는 웹디렉토리가 정보 검색의 중요한 수단으로 활용되기 시작하였다 그 대표

적인 예로서 미국 야후는 사업초기부터 자사의 포탈사이트에 검색엔진보다는 웹디

렉토리를 정보검색 서비스의 근간으로 채택하여 오고있다 웹디렉토리는 일반 인터

넷 검색엔진에 비교하여 볼 때 주제별로 적합한 사이트들을 분류 제공하므로 사용ㆍ

자에게 보다 정확한 최적의 정보를 제공할 수 있다는 장점을 갖는다 이러한 장점

으로 인하여 현재 대부분의 사이트에는 웹디렉토리가 기본적인 웹사이트 디렉토리

뿐만 아니라 상품 카탈로그 디렉토리 등 다양한 형태로 구축되어 활용되고 있으며

향후 이러한 추세는 지속될 것으로 예상된다

웹검색엔진과 웹디렉토리엔진을 검색데이터 구축방법 및 검색기능 관점에서 비교하

여 그 장 단점을 요약하면 표 와 같다[ 2] ㆍ

- 9 -

구분 웹검색엔진 웹디렉토리 엔진

검색대상

자료수집웹로봇을 통한 웹문서 자동수집 관리자가 웹사이트 분류

검색데이터

구축

색인시스템을 기반으로 한

자동색인

관리자 또는 사용자가 각

사이트별 요약정보 작성 및

입력

검색데이터

성격

수집한 웹문서 본문 내용에 대한

다양한 검색

사이트에 대한 요약정보를

대상으로 하는 단순 검색

장점

문서자동수집 및 색인생성으로

인한 대형 검색서비스 구축에 용이

웹문서 본문 내용 검색기능 제공

주제별 분류로 인하여

디렉토리의 사이트 정보가

정확함

단점

검색결과의 양이 지나치게

큼으로 인해 검색결과의 정확성

결여 결여됨

사이트 내의 본문내용 검색이

가능하지 않으므로 검색기증이

제한됨

표 웹검색엔진과 웹디렉토리의 장 단점 비교[ 2] ㆍ

위의 표에서 보는 바와 같이 정보검색에 있어 검색엔진과 웹디렉토리는 그 역할 및

성격은 아래와 같은 두 가지 중요한 점으로 요약될 수 있다

검색 대상 범위의 차이에 기인하여 웹검색엔진과 웹디렉토리는 검색기능 측면에o

서 상호보완적인 관계를 갖는다 즉 웹검색엔진은 본문 검색기능을 제공 (full-text)

하는 장점을 갖지만 인터넷과 같은 대규모 정보 환경에 대해서는 정보의 정확성이

결여된다는 단점을 갖으며 웹디렉토리는 사이트를 주제별로 분류하여 각 사이트에

대한 요약정보를 제공하므로 정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만

그 검색 대상의 범위가 본문 이 아닌 요약정보로 제한되어 검색 대상이 제(full-text)

한성을 받는 단점을 갖는다

시스템 구축 방법의 차이에 기인하여 웹검색엔진과 웹디렉토리는 상호 그 응용부o

문에서도 서로 보완적인 관계를 갖는다 즉 웹검색엔진은 문서 자동 수집 및 색인

특성으로 인하여 대규모 검색 대상에 대한 정보검색 시스템 구축에 적합한 성격을

가지며 웹디렉토리는 그 구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로

중규모 이하의 사이트를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖

는다

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 6: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 6 -

구분 내 용 성능 및 규격( )

규 격

소프트웨어 구성o

디렉토리 자료 등록 변경 처리기 등록 처리 모듈 변경 처리-

모듈 DB Gateway

디렉토리 신규 변경 자료 추출 모듈 모듈- Loader Document

모듈 모듈Filter Image Filter

관리기 자료 입력 변경 삭제 검색 모듈- Master Category DB

DB Gateway

자료수집 모듈 모듈- Load Distributor Document Loader

모듈 모듈 모듈 URL Extractor Uniqueness Checker

통합 색인기 형태소 분석 모듈 전자사전 모듈 추출- Keyword

모듈 색인 모듈

질의어 처리기 쿼리 프로세스 모듈 연산자 처리 모듈-

검색결과 출력 모듈

시스템 통합 관리 모듈-

지원 플랫폼o

운영체제 이상- Linux 2034

사용자 웹브라우져 이상- Microsoft 5X Netscape

이상Navigator4X

성능 기능ㆍ

사용자 측면o

웹문서 일반문서 이미지 사운드 동영상 디렉토리 서비스-

노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색( )

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료검색( )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문- (Hwp PPT Excel PDF ) (Full-text)

검색

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능-

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 7 -

구분 내 용 성능 및 규격( )

성능 기능ㆍ

계속( )

관리자 측면 공통o ( )

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

디렉토리 관리자 측면o

디렉토리 서비스 페이지 상 하단 설정 배너광고 게재 가능- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

검색엔진 관리자 측면o

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

동적 페이지 페이지 등 자료 수집 조절- (CGI PHP JSP )

자료수집 속도 조절-

검색대상 카테고리 도메인 호스트 설정- ( )

자료수집 대상 웹사이트 부하 조절-

사용자 인증 필요 자료 수집 정보 관리-

수집 문서 크기 제한-

수집 대상 자료 응답대기 시간 조절-

서버 지원 조절- Proxy

수집 대상 자료 설정- Hops Depth

중복문서 배제 조절 기능- (URL)

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능- ( )

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 8 -

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

현재 인터넷 인트라넷상의 대부분의 정보검색 시스템은 웹검색엔진 기술과 웹디렉

토리엔진 기술을 근간으로 구축되어 사용자에게 검색서비스를 제공하고 있다

사용자가 인터넷 상에서 정보를 신속하게 찾을 수 있도록 도와주는 도구는 키워드

기반의 웹검색엔진으로 부터 시작되었다 주어진 검색어 키워드 를 포함하고 있는 ( )

인터넷 상의 웹문서 정보에 대한 검색기능을 이용자에게 제공하는 검색엔진은

년대 중반에 상업화된 이후에 현재 국내외 대부분의 포탈 및 보탈사이트 뿐만1990

아니라 인트라넷 사이트는 검색엔진을 기반으로 하여 구축한 인터넷 검색 서비스를

제공하고 있으며 인터넷 사용자의 정보검색에 매우 중요한 도구로 자리매김하고 있

다 그러나 이러한 웹검색엔진은 인터넷의 정보의 양의 대규모화되면서 그 효용성

이 낮아지고 있다 그 이유는 주어진 검색 키워드에 대하여 지나치게 많은 량의 문

서정보가 검색 결과로 출력되므로 그 출력이 정보로서의 가치가 저하된다는 점 때

문이다

이러한 문제를 해결하기 위하여 년대 후반부터 웹사이트를 분류 정리하여 제1990 ㆍ

공하는 웹디렉토리가 정보 검색의 중요한 수단으로 활용되기 시작하였다 그 대표

적인 예로서 미국 야후는 사업초기부터 자사의 포탈사이트에 검색엔진보다는 웹디

렉토리를 정보검색 서비스의 근간으로 채택하여 오고있다 웹디렉토리는 일반 인터

넷 검색엔진에 비교하여 볼 때 주제별로 적합한 사이트들을 분류 제공하므로 사용ㆍ

자에게 보다 정확한 최적의 정보를 제공할 수 있다는 장점을 갖는다 이러한 장점

으로 인하여 현재 대부분의 사이트에는 웹디렉토리가 기본적인 웹사이트 디렉토리

뿐만 아니라 상품 카탈로그 디렉토리 등 다양한 형태로 구축되어 활용되고 있으며

향후 이러한 추세는 지속될 것으로 예상된다

웹검색엔진과 웹디렉토리엔진을 검색데이터 구축방법 및 검색기능 관점에서 비교하

여 그 장 단점을 요약하면 표 와 같다[ 2] ㆍ

- 9 -

구분 웹검색엔진 웹디렉토리 엔진

검색대상

자료수집웹로봇을 통한 웹문서 자동수집 관리자가 웹사이트 분류

검색데이터

구축

색인시스템을 기반으로 한

자동색인

관리자 또는 사용자가 각

사이트별 요약정보 작성 및

입력

검색데이터

성격

수집한 웹문서 본문 내용에 대한

다양한 검색

사이트에 대한 요약정보를

대상으로 하는 단순 검색

장점

문서자동수집 및 색인생성으로

인한 대형 검색서비스 구축에 용이

웹문서 본문 내용 검색기능 제공

주제별 분류로 인하여

디렉토리의 사이트 정보가

정확함

단점

검색결과의 양이 지나치게

큼으로 인해 검색결과의 정확성

결여 결여됨

사이트 내의 본문내용 검색이

가능하지 않으므로 검색기증이

제한됨

표 웹검색엔진과 웹디렉토리의 장 단점 비교[ 2] ㆍ

위의 표에서 보는 바와 같이 정보검색에 있어 검색엔진과 웹디렉토리는 그 역할 및

성격은 아래와 같은 두 가지 중요한 점으로 요약될 수 있다

검색 대상 범위의 차이에 기인하여 웹검색엔진과 웹디렉토리는 검색기능 측면에o

서 상호보완적인 관계를 갖는다 즉 웹검색엔진은 본문 검색기능을 제공 (full-text)

하는 장점을 갖지만 인터넷과 같은 대규모 정보 환경에 대해서는 정보의 정확성이

결여된다는 단점을 갖으며 웹디렉토리는 사이트를 주제별로 분류하여 각 사이트에

대한 요약정보를 제공하므로 정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만

그 검색 대상의 범위가 본문 이 아닌 요약정보로 제한되어 검색 대상이 제(full-text)

한성을 받는 단점을 갖는다

시스템 구축 방법의 차이에 기인하여 웹검색엔진과 웹디렉토리는 상호 그 응용부o

문에서도 서로 보완적인 관계를 갖는다 즉 웹검색엔진은 문서 자동 수집 및 색인

특성으로 인하여 대규모 검색 대상에 대한 정보검색 시스템 구축에 적합한 성격을

가지며 웹디렉토리는 그 구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로

중규모 이하의 사이트를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖

는다

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 7: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 7 -

구분 내 용 성능 및 규격( )

성능 기능ㆍ

계속( )

관리자 측면 공통o ( )

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

디렉토리 관리자 측면o

디렉토리 서비스 페이지 상 하단 설정 배너광고 게재 가능- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

검색엔진 관리자 측면o

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

동적 페이지 페이지 등 자료 수집 조절- (CGI PHP JSP )

자료수집 속도 조절-

검색대상 카테고리 도메인 호스트 설정- ( )

자료수집 대상 웹사이트 부하 조절-

사용자 인증 필요 자료 수집 정보 관리-

수집 문서 크기 제한-

수집 대상 자료 응답대기 시간 조절-

서버 지원 조절- Proxy

수집 대상 자료 설정- Hops Depth

중복문서 배제 조절 기능- (URL)

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능- ( )

표 웹디렉토리 엔진 개발대상 기술 요약표[ 1]

- 8 -

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

현재 인터넷 인트라넷상의 대부분의 정보검색 시스템은 웹검색엔진 기술과 웹디렉

토리엔진 기술을 근간으로 구축되어 사용자에게 검색서비스를 제공하고 있다

사용자가 인터넷 상에서 정보를 신속하게 찾을 수 있도록 도와주는 도구는 키워드

기반의 웹검색엔진으로 부터 시작되었다 주어진 검색어 키워드 를 포함하고 있는 ( )

인터넷 상의 웹문서 정보에 대한 검색기능을 이용자에게 제공하는 검색엔진은

년대 중반에 상업화된 이후에 현재 국내외 대부분의 포탈 및 보탈사이트 뿐만1990

아니라 인트라넷 사이트는 검색엔진을 기반으로 하여 구축한 인터넷 검색 서비스를

제공하고 있으며 인터넷 사용자의 정보검색에 매우 중요한 도구로 자리매김하고 있

다 그러나 이러한 웹검색엔진은 인터넷의 정보의 양의 대규모화되면서 그 효용성

이 낮아지고 있다 그 이유는 주어진 검색 키워드에 대하여 지나치게 많은 량의 문

서정보가 검색 결과로 출력되므로 그 출력이 정보로서의 가치가 저하된다는 점 때

문이다

이러한 문제를 해결하기 위하여 년대 후반부터 웹사이트를 분류 정리하여 제1990 ㆍ

공하는 웹디렉토리가 정보 검색의 중요한 수단으로 활용되기 시작하였다 그 대표

적인 예로서 미국 야후는 사업초기부터 자사의 포탈사이트에 검색엔진보다는 웹디

렉토리를 정보검색 서비스의 근간으로 채택하여 오고있다 웹디렉토리는 일반 인터

넷 검색엔진에 비교하여 볼 때 주제별로 적합한 사이트들을 분류 제공하므로 사용ㆍ

자에게 보다 정확한 최적의 정보를 제공할 수 있다는 장점을 갖는다 이러한 장점

으로 인하여 현재 대부분의 사이트에는 웹디렉토리가 기본적인 웹사이트 디렉토리

뿐만 아니라 상품 카탈로그 디렉토리 등 다양한 형태로 구축되어 활용되고 있으며

향후 이러한 추세는 지속될 것으로 예상된다

웹검색엔진과 웹디렉토리엔진을 검색데이터 구축방법 및 검색기능 관점에서 비교하

여 그 장 단점을 요약하면 표 와 같다[ 2] ㆍ

- 9 -

구분 웹검색엔진 웹디렉토리 엔진

검색대상

자료수집웹로봇을 통한 웹문서 자동수집 관리자가 웹사이트 분류

검색데이터

구축

색인시스템을 기반으로 한

자동색인

관리자 또는 사용자가 각

사이트별 요약정보 작성 및

입력

검색데이터

성격

수집한 웹문서 본문 내용에 대한

다양한 검색

사이트에 대한 요약정보를

대상으로 하는 단순 검색

장점

문서자동수집 및 색인생성으로

인한 대형 검색서비스 구축에 용이

웹문서 본문 내용 검색기능 제공

주제별 분류로 인하여

디렉토리의 사이트 정보가

정확함

단점

검색결과의 양이 지나치게

큼으로 인해 검색결과의 정확성

결여 결여됨

사이트 내의 본문내용 검색이

가능하지 않으므로 검색기증이

제한됨

표 웹검색엔진과 웹디렉토리의 장 단점 비교[ 2] ㆍ

위의 표에서 보는 바와 같이 정보검색에 있어 검색엔진과 웹디렉토리는 그 역할 및

성격은 아래와 같은 두 가지 중요한 점으로 요약될 수 있다

검색 대상 범위의 차이에 기인하여 웹검색엔진과 웹디렉토리는 검색기능 측면에o

서 상호보완적인 관계를 갖는다 즉 웹검색엔진은 본문 검색기능을 제공 (full-text)

하는 장점을 갖지만 인터넷과 같은 대규모 정보 환경에 대해서는 정보의 정확성이

결여된다는 단점을 갖으며 웹디렉토리는 사이트를 주제별로 분류하여 각 사이트에

대한 요약정보를 제공하므로 정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만

그 검색 대상의 범위가 본문 이 아닌 요약정보로 제한되어 검색 대상이 제(full-text)

한성을 받는 단점을 갖는다

시스템 구축 방법의 차이에 기인하여 웹검색엔진과 웹디렉토리는 상호 그 응용부o

문에서도 서로 보완적인 관계를 갖는다 즉 웹검색엔진은 문서 자동 수집 및 색인

특성으로 인하여 대규모 검색 대상에 대한 정보검색 시스템 구축에 적합한 성격을

가지며 웹디렉토리는 그 구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로

중규모 이하의 사이트를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖

는다

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 8: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 8 -

제 장 기술개발의 목적 및 중요성2

제 절 기술개발의 배경1

현재 인터넷 인트라넷상의 대부분의 정보검색 시스템은 웹검색엔진 기술과 웹디렉

토리엔진 기술을 근간으로 구축되어 사용자에게 검색서비스를 제공하고 있다

사용자가 인터넷 상에서 정보를 신속하게 찾을 수 있도록 도와주는 도구는 키워드

기반의 웹검색엔진으로 부터 시작되었다 주어진 검색어 키워드 를 포함하고 있는 ( )

인터넷 상의 웹문서 정보에 대한 검색기능을 이용자에게 제공하는 검색엔진은

년대 중반에 상업화된 이후에 현재 국내외 대부분의 포탈 및 보탈사이트 뿐만1990

아니라 인트라넷 사이트는 검색엔진을 기반으로 하여 구축한 인터넷 검색 서비스를

제공하고 있으며 인터넷 사용자의 정보검색에 매우 중요한 도구로 자리매김하고 있

다 그러나 이러한 웹검색엔진은 인터넷의 정보의 양의 대규모화되면서 그 효용성

이 낮아지고 있다 그 이유는 주어진 검색 키워드에 대하여 지나치게 많은 량의 문

서정보가 검색 결과로 출력되므로 그 출력이 정보로서의 가치가 저하된다는 점 때

문이다

이러한 문제를 해결하기 위하여 년대 후반부터 웹사이트를 분류 정리하여 제1990 ㆍ

공하는 웹디렉토리가 정보 검색의 중요한 수단으로 활용되기 시작하였다 그 대표

적인 예로서 미국 야후는 사업초기부터 자사의 포탈사이트에 검색엔진보다는 웹디

렉토리를 정보검색 서비스의 근간으로 채택하여 오고있다 웹디렉토리는 일반 인터

넷 검색엔진에 비교하여 볼 때 주제별로 적합한 사이트들을 분류 제공하므로 사용ㆍ

자에게 보다 정확한 최적의 정보를 제공할 수 있다는 장점을 갖는다 이러한 장점

으로 인하여 현재 대부분의 사이트에는 웹디렉토리가 기본적인 웹사이트 디렉토리

뿐만 아니라 상품 카탈로그 디렉토리 등 다양한 형태로 구축되어 활용되고 있으며

향후 이러한 추세는 지속될 것으로 예상된다

웹검색엔진과 웹디렉토리엔진을 검색데이터 구축방법 및 검색기능 관점에서 비교하

여 그 장 단점을 요약하면 표 와 같다[ 2] ㆍ

- 9 -

구분 웹검색엔진 웹디렉토리 엔진

검색대상

자료수집웹로봇을 통한 웹문서 자동수집 관리자가 웹사이트 분류

검색데이터

구축

색인시스템을 기반으로 한

자동색인

관리자 또는 사용자가 각

사이트별 요약정보 작성 및

입력

검색데이터

성격

수집한 웹문서 본문 내용에 대한

다양한 검색

사이트에 대한 요약정보를

대상으로 하는 단순 검색

장점

문서자동수집 및 색인생성으로

인한 대형 검색서비스 구축에 용이

웹문서 본문 내용 검색기능 제공

주제별 분류로 인하여

디렉토리의 사이트 정보가

정확함

단점

검색결과의 양이 지나치게

큼으로 인해 검색결과의 정확성

결여 결여됨

사이트 내의 본문내용 검색이

가능하지 않으므로 검색기증이

제한됨

표 웹검색엔진과 웹디렉토리의 장 단점 비교[ 2] ㆍ

위의 표에서 보는 바와 같이 정보검색에 있어 검색엔진과 웹디렉토리는 그 역할 및

성격은 아래와 같은 두 가지 중요한 점으로 요약될 수 있다

검색 대상 범위의 차이에 기인하여 웹검색엔진과 웹디렉토리는 검색기능 측면에o

서 상호보완적인 관계를 갖는다 즉 웹검색엔진은 본문 검색기능을 제공 (full-text)

하는 장점을 갖지만 인터넷과 같은 대규모 정보 환경에 대해서는 정보의 정확성이

결여된다는 단점을 갖으며 웹디렉토리는 사이트를 주제별로 분류하여 각 사이트에

대한 요약정보를 제공하므로 정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만

그 검색 대상의 범위가 본문 이 아닌 요약정보로 제한되어 검색 대상이 제(full-text)

한성을 받는 단점을 갖는다

시스템 구축 방법의 차이에 기인하여 웹검색엔진과 웹디렉토리는 상호 그 응용부o

문에서도 서로 보완적인 관계를 갖는다 즉 웹검색엔진은 문서 자동 수집 및 색인

특성으로 인하여 대규모 검색 대상에 대한 정보검색 시스템 구축에 적합한 성격을

가지며 웹디렉토리는 그 구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로

중규모 이하의 사이트를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖

는다

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 9: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 9 -

구분 웹검색엔진 웹디렉토리 엔진

검색대상

자료수집웹로봇을 통한 웹문서 자동수집 관리자가 웹사이트 분류

검색데이터

구축

색인시스템을 기반으로 한

자동색인

관리자 또는 사용자가 각

사이트별 요약정보 작성 및

입력

검색데이터

성격

수집한 웹문서 본문 내용에 대한

다양한 검색

사이트에 대한 요약정보를

대상으로 하는 단순 검색

장점

문서자동수집 및 색인생성으로

인한 대형 검색서비스 구축에 용이

웹문서 본문 내용 검색기능 제공

주제별 분류로 인하여

디렉토리의 사이트 정보가

정확함

단점

검색결과의 양이 지나치게

큼으로 인해 검색결과의 정확성

결여 결여됨

사이트 내의 본문내용 검색이

가능하지 않으므로 검색기증이

제한됨

표 웹검색엔진과 웹디렉토리의 장 단점 비교[ 2] ㆍ

위의 표에서 보는 바와 같이 정보검색에 있어 검색엔진과 웹디렉토리는 그 역할 및

성격은 아래와 같은 두 가지 중요한 점으로 요약될 수 있다

검색 대상 범위의 차이에 기인하여 웹검색엔진과 웹디렉토리는 검색기능 측면에o

서 상호보완적인 관계를 갖는다 즉 웹검색엔진은 본문 검색기능을 제공 (full-text)

하는 장점을 갖지만 인터넷과 같은 대규모 정보 환경에 대해서는 정보의 정확성이

결여된다는 단점을 갖으며 웹디렉토리는 사이트를 주제별로 분류하여 각 사이트에

대한 요약정보를 제공하므로 정보검색의 정확성을 제고시킬 수 있는 장점을 갖지만

그 검색 대상의 범위가 본문 이 아닌 요약정보로 제한되어 검색 대상이 제(full-text)

한성을 받는 단점을 갖는다

시스템 구축 방법의 차이에 기인하여 웹검색엔진과 웹디렉토리는 상호 그 응용부o

문에서도 서로 보완적인 관계를 갖는다 즉 웹검색엔진은 문서 자동 수집 및 색인

특성으로 인하여 대규모 검색 대상에 대한 정보검색 시스템 구축에 적합한 성격을

가지며 웹디렉토리는 그 구축에 있어 많은 부분을 사람의 작업에 의존해야 하므로

중규모 이하의 사이트를 대상으로 하는 정보검색 시스템 구축에 적합한 성격을 갖

는다

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 10: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 10 -

제 절 기술개발의 중요성2

인터넷상의 정보검색서비스 시스템 구축의 기반기술로서 웹디렉토리 기술은 매우

중요한 위치에 있으며 대부분의 사이트에서 다양한 형태의 웹디렉토리가 활용되고

있다 실례를 들어 보면 아래와 같다

미국의 알타비스타사 및 국내 다음사 등 대부분의 국내외 포탈서비스업체는 초기o

에 검색엔진만을 근간으로 하여 인터넷 검색서비스를 시작하지만 이후 웹디렉토리

를 구축하여 검색서비스를 확장하였다

인터넷 환경이 아닌 주제별 포탈 또는 보탈 사이트 및 전자상거래 등의 웹서비스o

사이트의 경우에는 사용자로 하여금 특정한 주제를 갖는 제한된 개수의 인터넷 사

이트에 대한 정보검색 서비스를 위하여 웹디렉토리를 활용하고 있다

대학이나 정부기관 등과 관은 기관의 홈페이지에는 검색엔진을 기반으로 하는 인o

트라넷 검색서비스와 각 기관의 내부 사이트 정보나 외부 유관기관 정보 등을 웹디

렉토리 형태로 구축하여 검색서비스를 제공하고 있다

한편 개인 홈페이지의 경우 관심있는 사이트를 북마크 형식의 웹디렉토리로 구축o

하여 활용하고 있다

위에서 살펴본 바와 같이 인터넷 포탈 및 보탈 그리고 주제별 웹서비스 사이트 일

반 기관 회사 개인홈페이지에 이르기까지 정보 검색서비스를 위하여 웹디렉토리를

활용하고 있으며 이러한 추세는 향후에도 지속되리라고 전망된다 그러므로 웹디렉

토리가 정보검색서비스의 인프라로서의 활용도가 계속 높아지고 있으므로 인터넷

상의 정보검색의 질을 높이기 위해서는 기본적으로 웹디렉토리의 각 디렉토리 별

로 등록된 사이트들의 웹문서를 검색할 수 있는 기능을 제공하여 기존 검색서비스

의 질을 한차원 높일 수 있는 웹디렉토리 검색엔진 개발이 현시점에서 시급히 요구

된다

표 은 웹디렉토리 검색엔진에 요구되는 주요 핵심기술과 지원하는 검색기능을[ 3]

간략하게 웹검색엔진 및 웹디렉토리엔진과 비교하여 요약한 내용이다

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 11: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 11 -

구 분 웹자료수집 측면검색데이터 구축

측면검색 기능

웹검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

키워드 기반의

자료 색인 기술

동적색인 기술

브로드밴드

색인기술

사이트 웹문서

내용 키워드 검색

기능

웹디렉토리

엔진

기반 자료UCI

자료 등록 관리 기술

웹사이트 검사기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

요약정보 키워드

검색

웹디렉토리

검색엔진

인터넷 로봇 기술

수집- Incremental

다이내믹 수집기술-

브로드밴드-

수집기술

- On-the-fly

수집기술

기반 자료UCI

자료 등록 관리 기술

디렉토리 트리

구조 표현 기술

키워드 기반하에서

디렉토리 구조

정보를 내포한

자료색인 기술

동적색인 기술

브로드밴드

색인기술

디렉토리 트리

구조의 요약정보

색인기술

디렉토리 트리 각

노드 상에서 사이트

웹문서 내용 키워드

검색

디렉토리 트리 각

노드 상에서 하위

디렉토리에 속한

사이트의 웹문서

내용 키워드 검색

디렉토리 트리 각

노드 상에서 사이트

요약 정보 키워드

검색

표 웹디렉토리 검색엔진의 기능 및 핵심기술[ 3]

웹디렉토리 검색엔진은 기본적으로 웹디렉토리에 등록된 사이트 요약 정보와 웹디

렉토리에 등록된 사이트의 색인데이터로 구성된다 각 디렉토리 상에서 검색을 수

행하면 디렉토리 요약정보 뿐만 아니라 그 디렉토리에 속한 웹사이트의 내용을 기

존의 웹검색엔진과 유사한 방식의 검색기능을 지원하게 된다 그림 참조([ 1] )

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 12: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 12 -

그림 웹디렉토리 검색엔진의 논리적 구성도[ 1]

제 절 현재 기술의 문제점 및 기술개발의 목적3

웹디렉토리 시스템는 기본적으로 윈도우 운영체제의 디렉토리와 같은 구조를 형95

성시키고 각 디렉토리 내에는 한 개 이상의 사이트 목록을 저장하는 구조를 갖는

다 사용자가 웹브라우저 상에서 웹디렉토리 내의 디렉토리를 선택한 경우 그 디렉

토리에 등록된 각 사이트의 요약정보를 주어진 형태로 출력하여 보여주게 된다

이러한 웹디렉토리 시스템은 기본적으로 관리자가 디렉토리 트리를 형성시킨 후 각

디렉토리에 해당하는 사이트들의 목록을 수집하여 각 사이트에 대한 요약 정보을

작성하여 입력하여 구축하게 된다 사이트 요약정보는 키워드 및 간략한 설명 URL

으로 구성되는 것이 일반적이다 그러므로 웹디렉토리는 검색기능에 있어 단순히

디렉토리 구축 시에 작성한 각 웹사이트의 요약문장 또는 요약 키워드에 대한 검색

만 가능하며 각 사이트 내의 웹문서 상의 내용검색은 기능을 제공하지 못하므로 검

색 범위의 제한성을 갖는 치명적인 단점을 갖는다

이러한 웹디렉토리 상에 사이트 내용 검색기능을 갖도록 하기 위한 기존의 기술은

웹디렉토리의 각 디렉토리 카테고리 또는 노드라고 칭하기도 함 별로 디렉토리에( )

속하는 일단의 웹사이트들에 대하여 인터넷 로봇이 자료를 수집하여 색인을 하여

키워드 검색을 할 수 있도록 일종의 엑스트라넷 검색엔진을 도입하는 방(Extranet)

법을 적용하는 것이다 즉 이 기술은 본 과제에서 제안하는 웹디렉토리 검색엔진

기술과는 달리 웹디렉토리와 웹검색엔진을 단순 결합 개념 하(simple summation)

에 함께 사용하는 것이라 할 수 있다 다시 말하면 웹디렉토리의 각 디렉토리 단위

로 검색엔진을 도입하는 기술이라고 할 수 있다

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 13: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 13 -

이러한 기술은 웹디렉토리의 각 디렉토리별로 독립적인 로봇 및 색인 모듈을 갖는

검색엔진 시스템을 설치해야하는 경우와 동일하므로 구현이 현실적으로 가능하지

않다 즉 인터넷 포탈사이트의 웹디렉토리의 경우 디렉토리의 수가 5000 - 50000

개 정도로 매우 크므로 그러한 수의 검색엔진 시스템을 구축 운용하는 것은 구축ㆍ

뿐만 아니라 관리에 현실적으로 감당할 수 없는 엄청난 비용이 소요될 것으로 예상

된다 실제로 국내외 적으로 비록 웹디렉토리에서 사이트 본문을 제공하여 검색서

비스의 경쟁력을 높이고자 원하는 포탈서비스 업체는 많지만 이러한 방법을 사용하

여 실제로 구축한 업체는 전무한 실정이다

따라서 웹디렉토리 기반의 정보검색시스템에 사이트 내용 검색을 지원할 수 있도

록 확장하는 기술은 정보검색서비스의 질을 한차원 높이기 위하여 요구되는 매우

중요한 기술이다 이러한 요구를 만족시킬 수 있는 기존 기술은 단지 웹디렉토리와

검색엔진 기술을 단순한 상호 결합에 의존하고 있다 그러나 이러한 접근방법은 비

용과 관리 측면에서 현실성이 없으며 이를 해결하기 위하여 그러한 기술에 대한 체

계적인 연구 및 개발이 국내 외적으로 아직 이루어지고 있지 않고 있다 본 과제ㆍ

에서는 그러한 체계적인 연구 및 개발의 일환으로 웹디렉토리 검색엔진 개념을 제

안하고 제반 핵심기술을 개발하는 것을 목표로 한다

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 14: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 14 -

제 장 기술개발의 범위 및 내용3

제 절 기술개발 범위1

본 과제의 최종 개발대상 기술인 웹디렉토리 검색엔진 기술은 웹디렉토리엔진과 웹

검색엔진을 구성하는 다양한 기술이 그 기반기술로 요구되며 이러한 기술을 본 과

제 개발의 주관기업인 주 레피아컴 뿐만 아니라 많은 검색엔진 관련 업체에서 이( )

미 개발하여 활용하는 기술이므로 본 과제에서는 개발대상 기술에 포함시키지 않는

다 그러나 앞에서 지적한 바와 같이 웹디렉토리 검색엔진 기술은 웹디렉토리엔진

기술과 웹검색엔진 기술뿐만 아니라 새로운 융합 기술이 요구되며 이러한 기술을

본 과제의 개발대상 기술로서 도출 개발하고자 한다 이러한 관점에서 웹디렉토리ㆍ

검색엔진 기본 과제의 대상기술의 내용 및 범위를 요약하면 표 와 같다[ 4]

구 분 기술개발 범위

기술개발목표

웹디렉토리 검색엔진 핵심기술 개발o

개발기술세부내용

웹디렉토리 트리 표현 기술 개발o디렉토리 관리 및 색인 모듈 등의 입력으로 사용될 웹디렉토리의-

구조를 텍스트로 표현하는데 사용기법 및 제작 기술- Graph Representation Description Language

개발기술 개발- Description Schema Parser

기반의 웹디렉토리 트리 편집 기술UCI관리자가 웹브라우져 상에서 웹디렉토리 트리의 내용을 편집할 수-

있는 기능 구축에 사용웹디렉토리 트리 표시 기능 지원-웹디렉토리 트리 편집 노드삭제 추가 이동 등 기능 지원- ( )노드별 사이트 정보 편집 등록 삭제 수정 기능 지원- ( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 15: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 15 -

구 분 기술개발 범위

개발기술세부내용계속( )

실시간 웹로봇 기술o On-the-fly웹디렉토리의 신규구축 및 등록 사이트의 문서 수집을 위한 로봇-

모듈의 구현에 사용디렉토리 사이트 갱신 삭제 정보 검사 기능 지원- 사이트 단위 수집 기능 지원- Incremental on-the-fly웹문서 일반문서 이미지 사운드 비디오 파일 수집 지원- 자료수집 시간 스케쥴링 기능 지원-동적 페이지 페이지 등 자료 수집 지원- (CGI PHP JSP )자료수집 속도 조절-자료수집 대상 웹사이트 부하 조절-사용자 인증 필요 자료 수집-수집 대상 자료 응답대기 시간 조절-수집 문서 크기 제한-수집 대상 자료 설정- Hops Depth중복문서 배제 조절- (URL)

웹디렉토리 트리 구조정보를 갖는 키워드 기반 색인 기술o웹디렉토리에 등록된 사이트의 웹문서 내용 검색 기능의 구축에-

사용디렉토리 상에서 등록된 웹사이트의 문서내용을 검색할 수 있도록-

색인데이터를 생성디렉토리 정보와 웹사이트의 정보 도메인 호스트 가 내장된 인덱스- ( )

생성 기술

디렉토리 검색 서비스 시스템 구축 기술o ASP인터넷 상의 기존 웹디렉토리에 웹 사이트 검색만 확장시킬수-

있도록 검색 서비스 지원을 위한ASP(Application Service Provider)기술웹디렉토리에 대한 문서내용 검색기능을 서비스로- ASP

구현하는데 사용노드별 단일 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )카테고리별 여러개의 사이트 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )하위 카테고리 여러개의 사이트 통합 웹문서 일반문서- ( )

멀티미디어 이미지 사운드 동영상 자료 검색 기능 지원( )

표 웹디렉토리 검색엔진 기술개발 범위[ 4]

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 16: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 16 -

제 절 기술개발 내용2

본 과제를 통하여 개발된 기술을 요약하면 다음과 같다

웹디렉토리 트리 표현 기법 개발1

웹디렉토리 트리 상에는 공유노드에 대한 침조 라는 웹디렉토리 고유의 성격으(Link)

로 인하여 실제로는 트리가 아닌 방향 그래프 로 나타내진다(Directed graph)

웹디렉토리 정보 즉 웹디렉토리 트리 구조 및 각 노드상의 사이트 정보를 검색엔진

의 로봇 및 색인 모듈에 통합해야 하므로 웹디렉토리 트리를 그래프 형식으로 표현

할 수 있는 기법을 개발하였다Graph Representation Schema

또한 그래프 형식으로 표현된 웹디렉토리 트리를 주어진 문법 (Context free

에 준하여 텍스트로 나타낼 수 있는 언어 를 개발grammar) (Description language)

하였다

웹디렉토리 검색엔진용 로봇 개발2

자료수집을 담당하는 로봇 부문에 대해서는 기존 웹검색엔진의 자료수집 기술과 함

께 웹디렉토리 상의 빈번한 사이트 등록에 따른 사이트 등록시 사이트의 내용을 곧

바로 수집 할 수 있는 수집 기술을 개발하였다on-the-fly

또한 로봇 부문에서 사이트의 웹자료의 내용 변경 및 삭제 정보를 추적하여 필요

에 따라 수집 및 수집된 자료를 갱신시킬 수 있는 디렉토리 사이트 갱신 삭제 정보

검사 기술을 개발하였다

웹디렉토리 검색엔진용 색인기술 개발3

기존 웹검색엔진에서 구축하는 키워드 기반 색인구조는 주어진 키워드에 대하여 모

든 웹문서를 대상으로 검색을 하게 되므로 각 키워드에 대한 색인데이터 내의 각

레코드가 단순히 문서정보만을 갖는 평면적인 구조를 갖는다(flat)

개발한 웹디렉토리 검색엔진용 색인데이터 구조는 웹디렉토리의 디렉토리 트리 구

조 정보를 색인데이터의 각 레코드에 포함시킨 형태이므로 웹디렉토리 내의 각 디

렉토리에서 검색을 수행할 경우 그 디렉토리 내에 포함되어 있거나 또는 하위 서브

디렉토리 내에 포함되어 있는 사이트들에 대한 웹문서만을 검색할 수 있는 장점이

있다

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 17: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 17 -

웹디렉토리 관리기술 개발4

웹디렉토리 구축 및 관리에는 웹디렉토리 상의 디렉토리 추가 삭제 이동 등의 디렉

토리 편집과 각 디렉토리 상에 사이트의 등록 추가 삭제 이동 등의 기능이 요구된

다 기존의 웹디렉토리엔진은 이러한 기능을 텍스트 방식으로 처리하는 기능 중심

으로 구현되어 있어 매우 비효율적이라 할 수 있다

본 과제에서 개발한 기반의 웹디렉토리 관리기술은 디렉토리 트리를 웹브라우UCI

저에 디스플레이 하여 화면에서 형식으로 디렉토리 편집 삭제 복사 갱WYSWYG (

신 이동 과 디렉토리 내 사이트 정보 편집 등록 삭제 이동 갱신 을 가능하게 하 ) ( )

였다

웹디렉토리 검색엔진용 쿼리 프로세서 기술 개발5

본 과제에서는 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭제가 용이

한 다차원 이진트리 기반의 전자사전과 연동되어 불(Multidimensional Binary Tree)

리언 연산 검색 필드 제목 본문 전체 검색 제목내 검색 디렉토리 통합 부분 검 ( )

색 기능을 제공하는 웹디렉토리 검색엔진용 쿼리 프로세서 기술을 개발하였다

웹디렉토리 검색엔진용 상용서비스 기술 개발6 ASP

웹디렉토리 검색엔진 소프트웨어를 도입 설치하게 되면 관리자에게 기존의 디렉토ㆍ

리 요약정보 관리뿐만 아니라 사이트 등록시 웹로봇 구동 및 색인 처리 등의 검색

엔진 관련 부문에 대한 관리의 수행도 요구된다 이러한 관리 부담을 줄이고 시스

템 구축비용을 절감시킬 수 있는 방법으로 서비ASP(Application Service Provider)

스 개념을 적용하여 웹디렉토리 검색엔진을 구입하지 않고도 사이트 디렉토리 통

합 부분 검색 기능을 제공하는 웹디렉토리 검색엔진용 상용서비스 기술을 개 ASP

발하였다

서비스 이용자들이 등록한 디렉토리 웹사이트 목록은 디렉토리별로 고유하게 부여( )

된 로 변환되어 서비스 시스템 파일로 저장되게 하였고 고객이 검색어를ID ASP

입력하면 전체 검색 인덱스에서 해당하는 디렉토리 트리 구조 정보를 내장한 인덱

스만을 대상으로 검색하게 하였다

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 18: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 18 -

제 절 시스템 구축 내용3

시스템 개요1

본 과제를 통하여 개발한 웹디렉토리 검색엔진은 크게 등록 변경 처리기 신(1) (2)

규 변경 자료 추출 모듈 관리기 생성 (3)Master Category DB (4)Directory Page

모듈 자료수집 모듈 통합 색인기 질의어 처리기 웹기반 시스템 통합 (5) (6) (7) (8)

관리 모듈로 구성되어 있다 그림 참조([ 2] )

그림 웹디렉토리 검색엔진 구조도[ 2]

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 19: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 19 -

시스템 구성요소2

가 등록 변경 처리기

사용자들에게 웹기반으로 신규 웹사이트를 등록하거나 등록된 웹사이트에 대한 정

보를 변경 신청할 수 있도록 처리해주는 모듈로서 신청 받은 자료는 등록 Pool DB

에 우선 저장되며 관리자 모듈을 통한 승인절차를 거쳐야만 Master Category DB

에 저장될 수 있다

구조Category Tree

웹사이트 등록시 보다 빠른 웹사이트 검색과 신규 등록 변경 요청을 처리하기 위해

서 메모리상에 카테고리 정보를 그림 과 같은 구조로 저장하고 있다[ 3]

그림 의 기본 구조[ 3] Category Tree

는 카테고리 파일의 카테고리 정보와 데이터베이스의 홈페이지 내- Category Tree

용 모두를 메모리에 로딩한다

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 20: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 20 -

의 노드는 로서 는 디렉토리 엔진- Category Tree root CNtype structure name field

명을 포인트하고 있으며 노드의 하위 노드는 카테고리별로 와 root CLtype structure

가 항상 같이 존재하며 해당 의 는CNtype structure CNtype structure name field

각각의 카테고리명을 포인트하고 있다

데이터 베이스에서 카테고리가 동일한 웹사이트의 정보는 를 사용하- list structure

여 단순연결리스트로 구현이 되는데 리스트의 삽입시 의 순으로 정렬이 Title ASCⅡ

이루어진다

웹사이트 정보의 단순연결리스트 중 노드는 정보를 담고 있지 않으며- Head

를 이용하여 와 를 각각 포인트만 한다hashIndex CNtype structure list structure

구조체CNtype

그림 구조체[ 4] CNtype CLtype

필드는 상위 카테고리명을 가지는 를 포인트한다- parent CNtype structure

필드는 하위의 카테고리가 있을 경우의 하위의 을 포인트한다- link CLtype

필드는 카테고리마다 주어지는 절대번호를 가진다- TableNum

필드는 해당 카테고리에 등록되어 있는 홈페이지의 개수를 가진다- maxList

필드는 해당 카테고리에 웹페이지가 있을 경우 이 아닌 값을 가지- hashlndex -1

며 그 값은 가 참조하므로 홈페이지 검색시 빠른 검색을 할 수 htmldata structure

가 있다

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 21: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 21 -

필드는 해당 카테고리가 다른 카테고리를 포인트하고 있을 경우만 해당되- linkinfo

며 링크될 카테고리명을 포인트한다 링크가 되지 않는다면 을 가진다 NULL

필드는 카테고리명을 포인트하고 있으며 해당 레벨에 해당하는 카테고리명- name

만 가지고 있다

구조체CLtype

필드는 해당 카테고리의 를 포인트한다- cnptr CNtype structure

필드는 형제 카테고리의 를 포인트하며 없을 경우에는- next CLtype structure

값을 취한다 형제 카테고리를 연결한 리스트는 해당 카테고리의NULL CNtype

중에서 필드가 포인트하는 내용의 값 순서로 정렬이 된다structure name ASC Ⅱ

구조체HTML amp List

그림 구조체[ 5] HtmlDate List

각 카테고리별로 카테고리 내에 등록된 홈페이지가 생성되어 있을 경우 위의-

가 생성이 되며 만약 등록된 홈페이지가 없으면 생성이 되지 않는다structure

의 필드는 의 해당 카테고리- HtmlData structure ptr List structure CNtype

를 포인트하고 있다 또한 필드는 의 연결 리스트 중에structure head list structure

서 필드가 포인트하는 내용 중 가장 값이 높은 노드를 포인트하고 있다Title ASC Ⅱ

에서 홈페이지 정보를 가지는 각각의 필드는 의 생성- List structure List structure

시 함수를 사용하여 메모리를 확보하며 리스트는 필드가 포인트하는malloc() Title

내용의 순으로 정렬이 되어 삽입된다ASC Ⅱ

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 22: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 22 -

나 신규 변경 자료 추출 모듈

사용자가 등록 변경 신청한 웹사이트가 저장되어 있는 등록 에서 Pool DB Master

의 자료와 비교해서 신규 변경된 자료만을 추출하는 모듈로서Category DB Master

입력 파일을 생성시킨다Category DB

신규 변경 웹사이트 처리 흐름도

등록 에 저장되어 있는 웹사이트 정보 중 웹서퍼 또는 관리자의 승인을 거Pool DB

친 자료들만 에 입력 될 수 있다 그림 참조Master Category DB ([ 6] )

그림 신규 변경 자료 추출 모듈 동작 흐름도[ 6]

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 23: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 23 -

다 관리기 Master Category DB

신규 변경 자료 추출 모듈에서 출력된 파일의 정보 를 참조하여 (Category Info)

자료를 갱신하는 모듈로서 입력 변경 삭제 검색 기능을 제Master Category DB

공한다 는 주기적으로 자동 백업이 될 수 있도록 구현하였으 Master Category DB

며 데이터 손실에 의한 서비스 장애 발생시 최근 의 복구만으 Master Category DB

로 서비스에 문제가 없도록 하였다

파일 구조Category Taxonomy

- Line Format

숫자 카테고리 이름 링크될 카테고리Level _ [ ]bull 「 」

각 필드 설명-

카테고리의 깊이를 표시하며 현재 까지 사용이 되고 있다 레벨은Level 2~6 1bull

파일 이름으로 지정되어져 있다

숫자 카테고리가 인터넷상의 문서로 표시될 경우 카테고리의 우선_ Displaybull 「 」

순위를 부여하기 위해서 사용되며 입력하지 않을 경우 값으로 키 값 default ASCⅡ

의 우선순위로 정해진다 기호 숫자 영문 한글 ( gt gt gt )

카테고리 이름 실제적인 카테고리의 이름을 입력하는 부분이다 bull

링크될 카테고리 임의의 카테고리가 분류 카테고리로 링크되어야 할 경우 카테 bull

고리이름 다음에 공백 없이 을 붙여서 표시한다lsquorsquo

그림 예[ 7] Taxonomy File

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 24: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 24 -

라 생성 모듈 Directory Page

를 참조하여 관리자가 지정한 를 적용한 디렉토리 서비스용Master Category DB UI

페이지를 자동 생성하는 모듈로서 사용자로 하여금 링크를 통한 카테고리별HTML

등록된 자료 조회가 가능하도록 한다 그림 참조([ 8] )

그림 생성 모듈 개요도[ 8] Directory Page

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 25: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 25 -

마 자료 수집 모듈

에 저장되어 있는 카테고리별 등록된 웹사이트 내부의 웹문서Master Category DB

일반문서 이미지 사운드 동영상 자료를 수집하는 모듈로서 통합색인기의 입력 파

일을 생성시킨다

자료수집 모듈 동작 알고리즘

에서 하나의 을 패치하고 그 의 호스트에 접속한다 접속이 성공URL DB URL URL

적으로 이루어지면 웹서버는 웹 로봇에 를 요청하고 웹 로봇이 를 보내면URI URI

웹 서버는 문서의 헤더를 보내준다 웹 로봇은 적재한 헤더 정보를 파싱하여 유용

한 문서인지를 체크한 후 유용한 문서이면 웹 서버에 문서의 본문을 요청하고 적재

한다 적재한 문서에서 참조되는 을 추출해 내고 추출된 과 를 비 URL URL URL DB

교하여 신규 만 에 삽입한다 그림 참조URL URL DB ([ 9] )

그림 자료수집 모듈 동작 알고리즘[ 9]

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 26: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 26 -

자료수집 모듈 구성도

자료수집 모듈은 같이 크게 가지 서브 모듈로 구성되어 있다 그림 참조4 ([ 8] )

그림 자료수집 모듈 구조도[ 9]

부하 분산기(Load Distributor)부하 분산기는 버퍼에서 을 하나 취한 다음 그 에 대한 호스트가ToLoad URL URL

버퍼에 존재하는지 검사한다 만약 존재하지 않는다면 해당 호스트를Schedule

에 삽입하고 의 문서를 적재한다 존재한다면 다시 버퍼에서Schedule URL ToLoad

을 한 개를 취하여 버퍼와 비교하는 과정을 반복한다 이 과정에서URL Schedule

동일한 호스트는 버퍼에 존재하지 못하도록 된다 즉 동시에 개 이상의Schedule 2

프로세스가 한 호스트에 접근하지 못하게 된다

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 27: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 27 -

적재기(Document Loader)웹 로봇의 가장 필수적인 모듈로서 을 입력으로 하여 해당 의 호스트에 소URL URL

켓 접속한 다음 웹 서버에 를 요청하게 된다 웹 서버는 요청된 를 검색한URI URI

다음 검색 결과에 따라 문서의 헤드를 웹 로봇 시스템에 전송해 준다 웹 로봇은

적재한 헤드를 파싱 하여 유용한 문서인지를 검사하고 유용한 문서이면 본(Parsing)

문의 내용을 적재한다 적재한 문서는 웹 로봇의 로컬시스템에 저장된다

추출기(URL Extractor)추출기는 적재기에서 다운로드받은 에서 태그 만을 추출하여 만든 태BodyBuff (Tag)

그 목록 을 작성한다 그리고 작성된 태그 목록에서 웹 문서 참조 를(Tag List) (Link)

추출하여 에 삽입한다ExtrUrl

유일성 검사기(Uniqueness Checker)기 수집한 자료를 웹 로봇이 다시 수집하지 않도록 추출기에서 추출된 이URL URL

에 존재하는지를 검색하는 모듈로서 해쉬 구조체를 이용해서 검색의 속도를 빠DB

르게 구현하였다

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 28: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 28 -

바 통합 색인기 (Indexer)

사용자들에게 노드별 카테고리별 검색 서비스를 제공해주기 위해서 카테고리 정보

가 내장된 인덱스를 생성하는 모듈이다 다양한 입력 데이터 유형 웹문서 일반문 (

서 이미지 사운드 동영상 자료 에 대해서 통일된 검색 인덱스를 생성시킬 수 있 )

도록 구현하였으며 형태소분석기를 내장한 전자사전 모듈과 일반문서 및 이미지

필터기와 연동된다

다차원 이진트리 기반의 전자사전 모듈

통합 색인기에 내장된 모듈로서 기존의 검색엔진 시스템에서 사용하는 트라이 구조

의 문제점을 개선시켜 검색속도가 빠르고 메모리 사용량이 적고 단어의 추가 삭

제가 용이한 것이 특징이다 전자사전 모듈은 디렉토리 검색엔진 서비스시에 데몬

으로 동작하며 사용자가 입력한 질의어 의 색인여부와 해당 인덱스를 찾아가(Query)

는 경로를 지정해주는 역할도 한다

일반문서 및 이미지 필터기 모듈

일반문서 필터기는 등의 원본 파일에서 본문 내용을 텍스트HWP MS-Word PPT

로 추출해주는 가능을 가지고 있고 이미지 필터기는 등의 원본 BMP GIF JPEG

파일을 규격화된 크기의 로 변환해주는 기능을 가지고 있다 각각Thumbnail Image

의 필터기가 지원하는 파일 유형은 표 와 같다[ 5]

구 분 변환 가능한 파일 유형 비 고

일반문서필터기

(DocumentFilter)

글 글워디안 984039 984039Microsoft Word 20 95 972000Microsoft Excel 30 40 95 972000Microsoft PowerPoint 95 972000Microsoft RTF(Rich Text Format)

영문 한글Adobe Acrobat PDF( )WordPerfect 60ASC (txt) Ⅱ

LaTeX SourceFile(tex)DVI Format(dvi)PostScript Format(pseps) Troff Files(t trroff man me ms)파일 포맷은 현재미지원

이미지 필터기(Image Filter)

BMP JPEG GIF AVI AVS EPI등총 가지 유형68

파일Adobe Illustrator중 포맷은 현재AI미지원

표 일반문서 및 이미지 필터기 지원 데이터 유형[ 5]

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 29: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 29 -

사 질의어 처리기 (Query Processor)

사용자들에게 노드별 단일 사이트 카테고리별 여러개의 사이트 또는 하위 카테고( ) ( )

리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 검( ) ( )

색 서비스를 제공해 주는 모듈이다 불리언 연산자 처리기를 내장하고 있으며 전자

사전 모듈과 연동되어 질의어에 적합한 결과를 일정한 폼에 준하여 출력해준다

질의어 처리기 주요 기능

노드별 단일 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영상 자료- ( ) ( )

검색

카테고리별 여러개의 사이트 웹문서 일반문서 멀티미디어 이미지 사운드 동영- ( ) (

상 자료 검색)

하위 카테고리 여러개의 사이트 통합 웹문서 일반문서 멀티미디어 이미지 사- ( ) (

운드 동영상 자료 검색 )

검색결과 출력 개수 조절-

유형별 검색 범위 지정 제목 본문 데이터 유형 등- ( )

다양한 불리언 연산자 지원- (AND OR ANDNOT)

웹문서 일반문서 등 전문 검색- (Hwp PPT Excel PDF ) (Full-text)

이미지를 이용한 원본 이미지 미리보기- Thumbnail

중요도별 날짜별 크기별 등 다양한 검색결과 정렬 기능 등-

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 30: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 30 -

아 웹기반 시스템 통합관리 모듈

웹 인터페이스를 통하여 웹디렉토리 검색엔진을 통합 관리 할 수 있도록 해주는 모

듈로서 관리자의 편의성을 최대한 도모하여 구현하였다

주요 기능

시스템 상태관리 각 모듈별 구동 현황 파악- ( )

시스템 환경 설정 데이터 파일 및 실행파일 경로 설정 등- ( )

카테고리별 등록자료 승인 변경 일별 월별- ( )

카테고리별 등록자료 통계 출력-

강제자료 등록-

웹문서 일반문서 멀티미디어 자료수집 스케쥴 관리-

웹문서 일반문서 멀티미디어 자료 인덱싱 스케쥴 관리-

검색결과 페이지 상 하단 설정 배너광고 게재 가능 등- ( )

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 31: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 31 -

시제품 서비스 데모4

가 웹디렉토리 검색 서비스

메인 화면

그림 웹디렉토리 검색엔진 메인 화면[ 10]

웹페이지 검색 화면

그림 웹페이지 검색 화면[ 11]

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 32: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 32 -

일반문서 검색 화면

그림 일반문서 검색 화면[ 12]

이미지 자료 검색 화면

그림 이미지 자료 검색 화면[ 13]

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 33: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 33 -

사운드 자료 검색 화면

그림 음악파일 검색 화면[ 14]

동영상 자료 검색 화면

그림 동영상 파일 검색 화면[ 15]

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 34: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 34 -

나 웹디렉토리 서비스

그림 웹페이지 디렉토리 서비스[ 16] 그림 일반문서 디렉토리 서비스[ 17]

그림 이미지 디렉토리 서비스[ 18] 그림 음악파일 디렉토리 서비스[ 19]

그림 동영상 자료 디렉토리 서비스[ 20]

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 35: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 35 -

제 장 기술개발 결과4

본 과제의 최종결과로서 웹디렉토리 검색엔진의 제반 핵심기술 개발이 이루어 졌으

며 이를 기반으로 한 웹디렉토리 검색엔진 소프트웨어 및 상용 서비스 시스템ASP

시제품이 개발되었다

본 과제 개발의 주관기업인 주 레피아컴은 자사가 보유한 인터넷 인트라넷 브로드( )

밴드 검색엔진 패키지 및 검색 서비스 판매 사업과 연계하여 웹디렉토리 검색ASP

엔진의 사업화를 다음과 같이 세가지 수익모델로 단계적으로 추진할 예정이다

기존 구축되어 있는 웹디렉토리의 성능향상을 위한 시장에 웹디렉토리 검색o ASP

서비스 판매사업

기존의 포탈 및 보탈 기관 등에 기 구축되어 있는 웹디렉토리는 본 과제에서 개발

한 웹디렉토리 검색기능이 없으므로 이러한 업체를 대상으로 서비스를 제공 ASP

하여 기존 웹디렉토리 상에 검색기능 만을 향상시킬 수 있는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색엔진 판매사업o

본 시장은 신규 웹디렉토리를 구축하고자 하는 업체에 웹디렉토리 검색엔진을 판매

하는 사업이다

신규 웹디렉토리 구축 시장에 웹디렉토리 검색 서비스 판매사업o ASP

신규 웹디렉토리를 구축하고자 하나 웹디렉토리 검색엔진의 구입에 따른 초기 설치

비용 및 시스템 관리에 따른 유지보수 비용을 절감하고자 하는 업체를 대상으로 웹

디렉토리 검색을 대행하여 주는 사업이다 이러한 웹디렉토리 검색 사업은 현 ASP

재 과제개발 주관업체가 수행하고 있는 인터넷 인트라넷 웹문서 검색 상용 서 ASP

비스 와 병행하여 추진하여 검색관련 서비스의 제품 다변화 및(asprepiacom) ASP

관련 서비스 기술의 시너지를 높이려고 한다 또한 과제개발 주관업체에게 국내 ㆍ

외적으로 검색관련 서비스의 선두주자로 발돋움 할 수 있는 중요한 계기를 제ASP

공해 주리라고 판단된다

위의 사업모델은 국내시장뿐만 아니라 국외시장에도 동일하게 적용될 수 있으므로

향후 다국어 지원기능을 갖도록 확장시켜 국외시장에 진출을 추진할 예정이다

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 36: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 36 -

현재 기존의 인터넷 인트라넷 검색 서비스는 년도 후반기에 미국 일본 및 ASP 2002

중국 시장에 진출할 준비에 있으므로 본 과제가 종료되는 시점에는 이러한 기반을

바탕으로 인하여 본 과제의 기술개발 결과인 웹디렉토리 검색엔진 및 검색 제ASP

품을 국외에 판매는 매우 용이할 것으로 예상하고 있다 또한 웹디렉토리 검색엔진

관련 시장은 기존 웹디렉토리엔진을 대체 및 신규 웹디렉토리 구축에 따른 시장이

막대할 것으로 예상되지만 현재 국외의 경쟁업체에서는 아직 출시가 되지 않고 있

으므로 수출상품으로서 매우 유망하다고 할 수 있다

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 37: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 37 -

제 장 기대효과5

본 과제에서 개발한 웹디렉토리 검색엔진 기술은 기존의 웹디렉토리 서비스에 검색

엔진의 검색기능을 결합하는 효과를 갖는 신개념의 웹디렉토리 서비스 구축을 가능

하게 하였으며 그 기대효과를 요약하면 아래와 같다

기술적 측면o

국내외적으로 기술적 난제로 여겨졌던 웹디렉토리 검색엔진 기술을 인터넷 검색-

과 웹디렉토리 검색 기술을 통합 적용하여 국내외 최초로 상용화 개발을 성공하여ㆍ

국내 검색 기반기술을 국외 선진수준으로 이상으로 도약시켜 향후 국내 검색업체가

차세대 검색 기술의 개발을 선도할 수 있는 기반을 마련하게 되었다

경제적 측면o

향후 연 억원 이상으로 국내의 기존 웹디렉토리의 보강 및 신규 웹디렉토리- 100

의 구축에 필요한 소프트웨어 엔진 판매시장에 본 개발 소프트웨어로 수입대체 효

과를 얻을 수 있을 것이다

본 개발 소프트웨어의 다국어 지원 기능을 갖도록 확장할 경우 전세계의 기존 웹-

디렉토리 엔진을 교체할 수 있으므로 년간 억원 이상의 판매가 가능하고 국내1000

소프트웨어 수출에 큰 일익을 담당할 수 있게 될 것이다

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 38: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 38 -

개발사업비 집행내역보고서2

가 개발사업비 집행내역요약표

나 정부출연금 잔액 산정표

정산금액 이 음수 일 경우 회수금액 은 으로 표시( ) (-) ( ) ldquo0rdquo

산정된 회수금액 정부출연금 잔액 은 환수함( )

산정된 기술료 는 별도지침에 따라 납부함( )

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 39: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 39 -

다 비목별 사용내역 요약

주관기업

항 목내역품명( 규격)

수량 단가

금액

비고계 현금 현물

인 건 비 인건비 55745 38975 16770

직접개발비

견품①시약재료구입비

기자재구입②및 임차

웹서버 1 14500 14500 14500 0정부출연금 100

조립PC서버

1 8200 8200 8200 0

정부출연금 70기업부담금 30

시제품제작비③

설계 디자인④ ㆍ

시험검사비⑤등 기타

직접개발비 합계 22700 22700 0

간접개발비

여비국내 시외출장 35 102 3587 3587

정부출연금 100

국외

상품화지원

인증획득비 특허등록 1 25 25 25 0정부출연금 100

전시회출품비

제잡비

회의비인8 회11

11 154 1691 1691 0정부출연금 100

공공요금통신료우편료

10 46 463 463 0정부출연금 100

유인비개발부대비용

1778 1778 0정부출연금 100

간접개발비 합계 7544 7544 0

개 발 보 전 비 0 0 0정부출연금 100

총 계 85989 69219 16770

첨 부

기술혁신개발자금 사용내역장부 사본 부1사업비 통장사본 부1

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 40: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 40 -

개발사업비 집행내역보고서 첨부서류

기술혁신개발사업자금 사용내역장부 사본1

사업비 관리통장사본2

주 레 피 아 컴( )

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 41: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 41 -

총 괄 장

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 42: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 42 -

총 괄 장

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 43: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 43 -

총 괄 장

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 44: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 44 -

인 건 비

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 45: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 45 -

인 건 비

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 46: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 46 -

인 건 비

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 47: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 47 -

직 접 개 발 비

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 48: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 48 -

간 접 개 발 비

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 49: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 49 -

간 접 개 발 비

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 50: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 50 -

간 접 개 발 비

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 51: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 51 -

개 발 보 전 비

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 52: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 52 -

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 53: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 53 -

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과
Page 54: (DevelopmentofTechnologyforWeb DirectorySearchEngines ... · -1-중소기업기술혁신사업 최종보고서 웹디렉토리검색엔진기술개발 (DevelopmentofTechnologyforWeb

- 54 -

  • 제 1 장 기술개발 목표
  • 제 2 장 기술개발의 목적 및 중요성
    • 제 1 절 기술개발의 배경
    • 제 2 절 기술개발의 중요성
    • 제 3 절 현재 기술의 문제점 및 기술개발의 목적
      • 제 3 장 기술개발의 범위 및 내용
        • 제 1 절 기술개발 범위
        • 제 2 절 기술개발 내용
        • 제 3 절 시스템 구축 내용
          • 제 4 장 기술개발 결과
          • 제 5 장 기대효과