2scai/Courses/g-slt99/TermPrj/99460... · Web view정보 추출 이론의 중요 연구 분야는 크게 다음의 세 가지로 구분해 볼 수 있으며 이를 수행하는 접근

ART2(Adaptive Resonance Theory)를

사용한 HTML 문서의 CLUSTERING

지식 표현 및 추론

TERM PROJECT 보고서

1999 년 6 월 19 일

산업공학과 99406-810

- i -

허 원 창

- ii -

1. 서론

1.1. 프로젝트 수행의 배경 및 목적

WWW 는 정보를 표현하고 조직하는 데 있어서 HTML(Hyper Text Markup Language)

이라는 비구조적이고 제한된 형식을 사용한다. 또한 WWW 의 체제 자체가 개방된

형태이기 때문에 정보의 양이 매우 방대하고 정보들이 체계적으로 조직되기가 매우

어렵다. 따라서 이러한 WWW 상에서 필요한 정보를 검색하는 데 있어서 관련성이 없는

불필요한 정보들이 많이 검색되기도 하며, 검색 결과를 체계적으로 분류하고 조직화하여

제공 받을 수 있는 방법이 없는 문제점이 있다.

본 연구에서는 이러한 WWW 상에서의 정보 검색의 문제점을 해결하고자 ART2

신경회로망의 자율학습 기능을 이용하여 WWW 상의 다양한 정보를 내용의 관련성에 따라

체계적으로 분류할 수 있는 방법론을 구현해 보았다.

1.2. 연구의 범위

본 연구에서 중심이 되는 연구 분야는 크게 두 부분으로 나눌 수 있다.

첫째, WWW 상에 존재하는 문서의 내용을 효과적으로 표현할 수 있는 문서 표현 방법론

(Document Representation)에 대한 연구와, 둘째, 표현된 문서를 체계적으로 분류할 수

있는 문서 분류 방법론(Document Classification)에 대한 연구이다.

이 가운데서 문서의 표현 방법은 문서의 분류를 위한 사전 처리 과정으로서 이 부분의

1

효과적인 수행 여부에 따라 올바른 문서 분류 작업의 성패가 좌우된다고 할 수 있다.

이러한 문서 표현 방법론의 설계를 위해서는 기존의 정보 추출 이론(Information Retrieval

Theory)에서 제안하는 통계적 인덱싱(Statistical Indexing), 벡터 공간 모델(Vector Space

Model) 등의 방법론들을 체계적으로 분석하여 응용하였으며, 문서 분류 방법론을

위해서는 인공 지능 분야에서 널리 연구되고 있는 Unsupervised Learning 알고리즘에

하나인 ART2(Adaptive Resonance Theory)를 이용하는 문서 분류 방법을 구현하여

보았다.

또한 설계된 시스템의 검증을 위하여 웹 브라우저를 사용하여 작동시킬 수 있는 분류

시스템의 프로토타입을 구현하였으며, 프로토타입의 분류 성능을 실험하기 위하여 기존

검색 시스템이 제공하는 분류 체계를 통해 예제 문서 집합을 구성하고 구현된

프로토타입을 사용한 문서 집합의 분류 작업과 분류 결과 분석 작업을 수행하였다.

2

2. 정보 추출 이론의 기본 개념

본 프로젝트에서는 WWW 문서를 분류하기 위한 사전 과정으로 정보 추출 이론

(Information Retrieval Theory)에서 연구된 연구 결과를 사용하였다. 이에 대한 이해를

위하여 이 장에서는 정보 추출 이론에 대한 개괄적인 내용을 기술하도록 하였다. 정보 추출

이론(Information Retrieval Theory)은 다양한 형태의 비구조화된 정보를 담고 있는 문서와

필요한 정보에 대한 요구를 표현하는 질의를 각각 내용에 따라 특정한 형태로 표현하고,

이를 이용하여 사용자가 필요로 하는 정보를 효과적으로 추출, 여과(Filtering), 분류하는 데

필요한 방법론을 연구하는 분야이다.

정보 추출 이론의 중요 연구 분야는 크게 다음의 세 가지로 구분해 볼 수 있으며 이를

수행하는 접근 방법에는 통계 모델, 확률 모델, 인공 지능 모델 등이 있다.

문서와 질의의 표현(Representation) 방법

문서-질의, 문서-문서 간의 관련성 평가 방법

관련성 Feed-back 및 질의 확장(Query Expansion) 방법

본 절에서는 이러한 각각의 분야 중 프로젝트 수행의 초점이 되는 문서 분류 작업에

필요한 과정인 문서의 표현과 문서간의 유사성 평가 방법에 대하여 개략적으로

살펴보도록 하겠다.

2.1. 문서의 표현(Representation) 방법

3

2.1.1. 문서의 모델링

정보 추출 시스템에서 문서를 표현하기 위한 방법에는 [표 5]와 같이 크게 키워드 기반

표현 방법과 N-Gram 이 있다. 본 연구에서는 문서를 키워드에 기반한 Vector Space 로

표현하고자 한다.

[표 ] 문서의 표현 방법

키워드 기반 표현 N-Gram

기본 개념문서에 존재하는 어휘의 인덱싱을

통한 표현

문서에 존재하는 N 개의 연속된

문자열의 인덱싱을 통한 표현

특징개념적 표현

자연어로 기술된 일반 문서에 적용

형식적 표현

한자, 특수기호, 수식 등이 포함된

문서에 적용

장단점

문서의 개념 표현 가능

Stemming, Stopping 과 같은

어휘에 대한 추가 작업 필요.

언어에 종속적

문서의 개념 표현 불가

추가 작업 불필요

언어에 독립적

대부분의 정보 추출 시스템에서는 키워드 기반 표현 방식을 이용하는 데 이는 자연어로

기술된 비구조화된 문서로부터 개념을 추출하기 위한 유일한 단서가 키워드가 되기

때문이다.

일반적으로 키워드 기반의 정보 추출 시스템에서는 주어진 문서 집합에 존재하는 N 개의

키워드를 추출하여 N 차원 벡터 공간을 구성한다. 따라서 각각의 문서는 이 N 차원 벡터

4

공간에 존재하는 하나의 벡터로 표현되며 벡터 값의 계산은 문서의 인덱싱 과정을 통하여

수행 된다.

2.1.2. 문서의 인덱싱(Indexing) 방법

일반적으로 문서 검색 시스템의 인덱싱 방법에서는 어휘의 중요도를 계산하기 위하여

일반적으로 문서에 존재하는 어휘들이 갖는 두 가지 성질인 Exhaustivity 와 Specificity 의

개념을 이용한다.

Exhaustivity - 어휘가 표현하는 개념이 하나의 문서 내에서 갖는 중요성을 의미한다.

즉, 하나의 문서 내에서 주요한 개념을 설명하며 자주 사용되는 어휘는 Exhaustivity 가

높다고 할 수 있다. Exhaustivity 의 측정을 위해서는 주로 어휘의 빈도수나 밀집도

(Density)와 같은 통계 자료를 사용한다.

Specificity - 하나의 어휘가 표현하는 개념의 구체성을 의미한다. 즉, 여러 문서에

전반적으로 쓰이는 어휘는 Specificity 가 낮고 특정한 일부 문서들에만 사용되는

어휘는 높게 된다.Specificity 의 측정을 위해서는 주로 여러 문서에서의 어휘의 출현

분포(Distribution)와 같은 통계자료를 사용한다.

일반적으로 문서에 등장하는 어휘의 분포를 조사해 보면 중요한 어휘일 수록

Exhaustivity 와 Specificity 가 높은 값을 갖게 된다. 이와 같은 어휘의 특성에 대한 측정치를

5

바탕으로 각각의 어휘 i 가 문서 j 에 대해 갖는 중요도 Wij 는 일반적으로 식(3.1)과 같이

Exhaustivity 와 Specificity 의 곱으로 정의한다.

Wij = TFij * IDFi , IDFi = log(N/DFi), N = 총 문서수 -----식(3.1)

식(3.1) 에서 어휘의 Exhaustivity 는 TFij로 표현되었으며 이는 단어 Ti 가 문서 Dj 에

나타난 빈도수이다. 어휘의 Specificity 는 IDFi 로 표시 되었으며 이는 DFi(Document

Frequency)의 역수로 표시되었다. DFi 는 어휘가 등장하는 문서의 개수를 나타내므로 IDFi

는 전체 문서 중 어휘 i 가 존재하는 문서의 비율을 의미한다.

2.2. 문서-문서간의 관련성 평가 방법

문서의 인덱싱 과정이 끝나면 이를 바탕으로 문서-문서간의 관련성을 평가할 수 있는

척도를 설정한다. 관련성에 대한 평가는 관련 정보의 추출, 여과, 분류 등의 기능을

수행하기 위한 중요한 기본 자료가 된다.

일반적인 분류 시스템에서의 접근 방법에서는 N 차원 벡터 공간에 존재하는 문서 벡터들

사이의 거리를 사용하여 문서간의 관련성을 평가한다. 질의 또한, 이를 구성하는 어휘를

통해 벡터 형태로 표현될 수 있다. 일반적으로 이러한 접근 방법을 사용한 관련성

척도로는 식(2.1)와 같은 것들이 있다.

식(2.1) 여러 가지 관련성 척도

6

Dice’s Coefficient - 2|X Y| / |X| + |Y|

Jaccard’s Coefficient - |X Y| / |X Y|

Cosine Coefficient - |X Y| / |X|1/2 * |Y|1/2

Overlap Coefficient - |X Y| / min( |X|, |Y|)

X, Y - Document Vector

이러한 척도들은 기본적으로 두 벡터간의 거리 공식에 기반한 형태이며 0 과 1 사이의

값을 갖게 된다. 0 에 가까운 값을 가질 수록 두 문서의 관련성은 높다고 평가할 수 있게

된다.

3. 시스템의 설계 및 구현

본 절에서는 본 연구에서 설계한 문서 분류 시스템의 전체 구조와 전체 시스템을

구성하는 각 하부 모듈들의 작동 원리 및 구현 방식에 대하여 설명하였다.

7

3.1. 시스템의 구조 및 구성 요소

본 연구에서 설계한 WWW 문서의 자동 분류 시스템의 전체적인 구조는 [그림 9] 와 같다.

Web Browser Interface

•HTML Set

패턴 생성 모듈문서 추출 모듈

www

•T-D Matrix

문서 분류 모듈

•분류 결과•추출 결과

•Keyword

사전 처리 모듈

[그림 ] 시스템의 전체 구조

시스템은 크게 다음의 세 가지 하부 모듈로 구성된다.

문서 추출 모듈

문서의 사전 처리 모듈과 패턴 생성 모듈

문서 분류 모듈

사용자가 키워드를 입력하면 문서 추출 모듈은 Yahoo 나 Altavista 와 같은 기존의 검색

시스템들을 사용하여 주어진 키워드를 포함하는 HTML 문서를 수집하게 된다. 이렇게

8

수집된 문서들은 사전 처리 모듈에 의해 Tag 및 불필요한 어휘의 제거, 어휘의 Stemming

등의 과정을 거치게 되며 패턴 생성 모듈에 의해 각 어휘의 중요도 계산 및 문서의 개념을

표현하는 패턴의 추출과 Term-Document Matrix 의 생성 과정이 수행된다. 문서 분류

모듈은 Term-Document Matrix 를 바탕으로 신경회로망을 구성하여 문서의 분류 과정을

수행하게 되며 그 결과를 웹 브라우져에 트리 형태로 제시하게 된다.

다음의 그림은 구현된 프로토타입을 웹 브라우져상에서 실행시킨 모습이다. 좌측 상단의

프레임에는 키워드를 입력하고 사용할 검색 시스템을 선택하여 문서 추출 모듈을

수행시킬 수 있는 메뉴가 있고 학습률을 입력하여 ART 를 구성하고 이를 Training 시킬 수

있는 메뉴가 있다. 좌측 하단의 프레임에는 Training 된 분류 결과가 트리 형태로 제시되며

원하는 문서를 클릭하면 우측 프레임에 문서의 내용이 나타나게 된다.

9

[그림 ] 실행 화면

3.2. 문서 추출 모듈의 구현

문서 추출 모듈은 WWW 연구 단체인 WWW 콘소시움에서 제공하는 WWW

응용프로그램 개발 라이브러리인 libwww 5.2 를 사용하여 구현되었으며, Altavista, Yahoo,

Excite, Lycos 와 같은 기존 검색 시스템에서 제공하는 CGI 인터페이스를 호출하여 검색

결과 문서를 수집하는 기능을 수행한다.

10

본 프로젝트에서 문서 추출 모듈은 WWW 상에서 분류하고자 하는 예제 문서들을 보다

쉽게 생성하기 위해 시스템의 하부 모듈로서 구현 된 것이다. 이를 통하여 여러 가지

주제에 대해 일반 검색 엔진과 같은 방식으로 WWW 문서를 Local 디스크 공간에 저장할

수 있게 된다.

3.3. HTML 문서의 사전 처리(Pre-Processing) 모듈

HTML 문서의 사전 처리 모듈은 HTML 문서로부터 패턴 생성 과정을 수행하기 위해

필요한 여러 가지 사전 작업을 수행한다. 이러한 사전 처리 작업에는 크게 다음의 세

가지가 있다.

불필요한 HTML TAG 의 제거

Stopping 과정 - 불필요 어휘의 제거

Stemming 과정 - 어휘의 어미(suffix) 변화의 처리

3.3.1. 불필요한 HTML Tag 제거

이 단계에서는 해당 HTML 문서로부터 불필요한 Tag 들을 제거하는 작업을 수행한다. 단

문서의 제목과 주제어가 있는 <Title> Tag 와 <H> Tag, 그리고 문서의 키워드들이

나열되어 있는 <Meta > Tag 의 내용은 제거하지 않는다.

3.3.2. Stopping 과정

Stopping 과정은 문서에 포함된 어휘 중 문서의 개념을 표현하는 데 불필요한 어휘들을

제거해 나가는 과정이다. Stopping 과정에서 제거되는 어휘들은 숫자, 기호, 수식과 같은

11

문자열, 문법적으로 사용되는 비개념어, 지나치게 빈도수가 높거나 낮은 어휘들, 여러

문서에 고르게 등장하는 어휘 등이다.

이러한 Stopping 과정의 수행 방법에는 Stopword 리스트를 사용하는 방법과 Lexicon 을

사용한 방법의 두 가지가 있다.

가. Stopword 리스트를 통한 어휘 제거

일반적인 정보 추출 시스템에서는 불필요 어휘의 제거를 위해 Stopword 리스트를

사용한다. Stopword 리스트에는 다음과 같은 품사의 어휘들이 나열되어 있으며 이러한

어휘들은 문서로부터 제거된다.

관사 - a, an, the ...등등

전치사 - above, around, before.. 등등

접속사 - where, as, but, and.. 등등

대명사 - he, him, them, she.. 등등

비동사 - be, are, was 등등

자주 사용되는 동사 - have, get, tell, say, 등등

본 시스템에서도 200 여 개의 어휘로 구성된 Stopword 리스트를 사용하여 기본적인

Stopping 과정을 수행한다.

나. Lexicon 을 사용한 어휘 제거

일반적으로 문서에는 Stopword 리스트로만은 제거할 수 없는 다양한 형태의 어휘들이

존재한다. 이러한 어휘들을 모두 Stopword 리스트에 나열하는 것은 어려운 문제일 뿐만

아니라 비효율적이다. 따라서, 본 시스템에서는 보다 효과적인 Stopping 의 수행을 위해

12

Lexicon 인 WordNet 1.6 에서 제공하는 어휘에 관한 정보를 이용하여 추가적인 Stopping

과정을 수행한다. 이를 통해 Stopword 리스트에서 누락된 불필요 어휘까지도 제거할 수

있다.

숫자 및 기호 문자의 제거 - 문서에서 어휘를 추출하는 것은 어휘간의 공백을

사용하여 판단하게 된다. 따라서 불필요하게 의미가 없는 숫자나, 기호 등이

추출되기도 한다. 본 시스템에서는 숫자나 특수기호 수식과 같이 Lexicon 에

존재하지 않는 문자열들은 추가적으로 제거되도록 한다.

불필요 품사 어휘의 제거 - Stopword 리스트에 의해 제거되지 않은 접속사, 전치사,

부사어 등을 제거한다. 이러한 품사의 어휘들을 일반적으로 문법적 형식을 위해

사용되는 어휘로써 문서의 개념을 추출하는 데 불필요하다. 각 어휘의 품사 판단은

Lexicon 을 사용하여 수행된다.

자주 사용되는 동사, 형용사의 제거 - Stopword 리스트에 의해 제거되지 않은 동사나

형용사들 중 사용빈도가 매우 높은 어휘들을 제거한다. 이러한 어휘들은 Wordnet

1.6 에서 제공하는 어휘들의 사용 빈도에 대한 수치 정보를 활용하여 제거하게 된다.

빈도수가 매우 적은 어휘의 제거 - 일반적으로 문서에 등장하는 어휘의 분포를 보면

매우 빈번하게 출현하는 몇몇 주요 어휘와 빈도수가 매우 희박한 많은 어휘가

존재하게 되는 특징이 있다. 출현 빈도수가 극히 떨어지는 어휘들은 문서로부터

제거된다.

이와 같은 Stopping 과정을 거치게 되면 문서에 포함된 어휘의 수가 줄어들게 되고

문서의 개념을 효과적을 표현할 수 있는 어휘들만이 존재하게 되어, 이후에 수행되는 패턴

13

추출 과정이 보다 빠르고 효과적으로 수행될 수 있다.

3.3.3. Stemming 과정

Stemming 과정은 동사, 형용사, 명사 등의 어미 변화를 감지하여 기본형으로 변형하는

과정이다. 널리 알려진 Stemming 알고리즘으로는 1980 년 M.F. Porter 에 의해 소개된

알고리즘이 있다. Porter 의 Stemming 알고리즘은 [표 ]과 같이 크게 다섯 단계를 거쳐 어미

변형을 처리한다.

[표 ] Porter 의 Stemming 알고리즘의 단계별 Suffix

Step1 Step2 Step3 Step4 Step5

before after before after before after before after before after

sses ss ational ate icate ic al - e -

ies i tional tion ative - ance - ll l

ss ss enci ence alize al ence -

s - anci ance iciti ic er -

eed ee izer ize ical ic ic -

ed - abli able ful - able -

ing - alli al ness - ible -

at ate entli ent ant -

bl ble eli e ement -

iz ize ousli ous ment -

14

y i ization ize ent -

bb,dd,ff,

gg,mm,

nn,pp,rr,

tt,ww,xx

b,d,f,g,

m,n,p,r

,t,w,x

ation ate sion s

ator ate tion t

alism al ou -

iveness ive ism -

fulness ful ate -

ousness ous iti -

aliti al ous -

iviti ive ive -

biliti ble ize -

일반적으로 대부분의 Stemming 알고리즘은 불규칙 어미 변화를 수행하는 어휘들에

대해서는 올바른 Stemming 작업을 수행하지 못한다. Porter 의 알고리즘도 [표 ]에서 보는

바와 같이 몇몇 예외 상황에 대응하지 못하는 단점이 있다.

[표 ] Porter 의 Stemming 알고리즘의 예외 상황

Does Does not

규칙 복수형 제거

규칙 시제 변화 동사

Morphological Variation

의 처리

불규칙 복수형(women, teeth 등등)

불규칙 시제 변화 동사

-y 나 -able 등으로 끝나는 어휘의 처리(Machinery,

University, Policy 등등)

기타 오류 - Executive-Execute, Organization-

15

Organ, Iteration-Iter, General-Gener

이러한 알고리즘의 단점을 해결할 수 있는 방법으로는 온라인 사전을 참조하거나 불규칙

변화의 어휘의 리스트를 사용하는 방법 등이 있다. 본 연구에서는 Lexicon 을 사용하여

Porter 알고리즘의 잘못된 수행 결과를 판단하고 Stemming 의 수행을 철회하게 된다.

지금까지 살펴본 HTML Tag 제거 과정, Stopping 과정, Stemming 과정을 통해 문서의

사전 처리 작업이 완료되면 모든 HTML 문서들은 주요 어휘들이 나열된 형태로 변형되어

패턴 생성 모듈로 전달되어 처리된다.

3.4. 패턴 생성 모듈

패턴 생성 모듈은 문서에 존재하는 어휘들에 대한 통계 자료를 바탕으로 어휘의

가중치를 계산하고 이를 통해 문서를 벡터 형태로 표현하는 작업을 수행한다. 패턴 생성

모듈은 어휘의 중요도 계산을 통한 인덱싱 과정과 Term-Document Matrix 생성 과정을

수행한다.

3.4.1. 문서의 인덱싱 과정

본 시스템에서는 문서의 인덱싱을 위하여 각 어휘들의 중요도를 통계적 인덱싱 기법을

기반으로 하여 식(5.1)과 같은 방식으로 계산한다.

16

식(5.1) 가중치 계산

식(5.1)에서 WTFij(Weighted Term Frequency)는 어휘 i 의 문서 j 에 대한 가중치를

고려한 빈도수가 되며 는 각각 <Title>, <Meta>, <H> Tag 에 존재하는 어휘에 부여되는

가중치의 곱으로 0~1 사이의 값을 갖는다.

IDFij는 어휘 i 가 문서 j 에 집중되어 있는 비율을 의미하며 N / DFi 항과 WTFij /

AVG(WTFij) 항의 곱에 로그를 취한 형태로 정의된다. N / DFi 항은 전체 문서 중 어휘 i 가

존재하는 문서의 비율이며 WTFij / AVG(WTFij) 항은 어휘 i 의 문서 j 에 대한 빈도수와 전체

문서에 대한 평균 빈도수의 비율이다. 이를 통해 특정 문서에 대한 빈도수가 높은 문서에

더욱 큰 가중치를 부여하게 된다.

이와 같이 문서에 존재하는 각 어휘들의 중요도 계산을 통해 해당 문서를 어휘의

중요도로 구성된 벡터 형태로 표현하게 된다

.

17

3.4.2. Term-Document Matrix 생성

어휘의 인덱싱 과정을 통해 생성된 각 문서 벡터를 조합하면 주어진 문서 집합으로부터

[그림 12]와 같은 Term-Document Matrix 를 추출할 수 있다. 이를 사용하여 문서 분류

모듈은 주어진 문서 집합의 분류하는 작업을 수행한다.

T1 T2 ..... TM

D1 xxx xxx xxx xxx

D2 xxx xxx xxx xxx

... xxx xxx xxx xxx

Dn xxx xxx xxx xxx

Document Vector

Term Vector 어휘의 중요도

[그림 ] Term-Document Matrix

3.5. ART2 를 이용한 문서 분류 모듈의 구현

문서 분류 모듈은 인덱싱 과정에서 생성된 T-D Matrix 를 입력 받아 신경회로망의 일종인

ART2 알고리즘을 사용하여 문서의 분류 작업을 수행하게 된다.

3.5.1. ART(Adaptive Resonance Theory)의 개요

ART 는 G.ail.A.Carpenter 와 Stephen Grossberg 에 의해 고안된 신경회로망으로

Unsupervised Learning 을 통해 기존 신경회로망의 문제점 중 하나인 Stability-Plasticity

문제를 해결할 수 있는 특징을 갖는다. 본 연구에서 ART2 를 도입한 이유는 이와 같은

특성이외에도 Vigilance parameter 를 통한 분류 강도의 조정이 가능하기 때문이다.

18

가. 기본 구조

전체적인 ART 의 기본 구조와 작동 방식은 [그림 12]와 같다.

Pattern Input - F0 layer

Comparison - F1 layer

Clustering - F2 layer

ResetUnits

G2

G1

Attentional Subsystem

OrientingSubsystem

+

+

+

+

+

+

+

-

-

[그림 ] ART 의 기본 구조

ART 신경회로망은 입력 레이어(F0), 비교 레이어(F1), 클러스터링 레이어(F2)로 구성된

Attentional Subsystem 과 Reset Unit 으로 구성된 Orienting Subsystem 으로 구성된다. F1

와 F2 에 존재하는 뉴런(neuron)들은 Bottom-up 벡터와 Top-down 벡터로 연결되어 있다.

F0 는 입력 패턴을 받아들여 정규화 작업을 수행하며, F2 는 입력 패턴들에 의해 생성된

클러스터를 저장한다. F1 은 F0 에서 입력 받은 패턴과 F2 가 기억하고 있는 클러스터와의

비교를 통해 유사한 클러스터를 선택하며 Reset Unit 은 비교 결과에 따라 F2 의

19

클러스터를 비활성화하는 기능을 수행한다.

나. ART 의 특징

ART 는 다른 신경회로망과 비교하여 다음과 같은 특징을 갖는다.

Unsupervised Learning 메커니즘 - ART 는 사전 Training Set 을 통한 훈련이 필요

없이 새로운 입력 패턴을 학습할 수 있다.

분류 기준의 엄밀도 조절 - 주어진 입력 패턴과 저장된 클러스터의 유사성 판별의

기준이 되는 수치를 경계값(Vigilance Parameter)라 하는데, ART 는 이 값을

조정함으로써 네트워크의 분류 기준의 엄밀도를 조절할 수 있다. 즉, 경계값을 크게

설정하면 구체적이고 세밀한 분류가 가능하게 된다.

Stable-Plastic 네트워크. - ART 는 기존 신경회로망의 딜레마인 Stability-Plasticity

문제를 해결한다. 네트워크의 Stability 는 사전에 학습한 패턴들에 대한 기억을

안정적으로 유지하는 능력을 의미하며 Plasticity 는 사전에 학습한 적이 없는

새로운 패턴을 처리할 수 있는 능력을 의미한다. ART 는 입력 패턴과 기억된

클러스터간의 비교를 통해 새로운 입력 벡터를 판별하고, 기존의 클러스터에

영향을 미치지 않으면서 학습을 수행하기 위해 Reset 메커니즘을 사용함으로써

이러한 두 가지 특성을 함께 유지할 수 있다.

3.5.2. ART2 알고리즘

ART2 의 세부적인 구조는 [그림 13]과 같다.

20

Ri

pi qi

xi

vi

wi

ui

gg

g

g

g

F2g

YjF2 reset

g(Yj)

bf(qi)

f(xi)aui

ui

Ii

cpi

[그림 ] ART2 의 세부 구조

F1 은 정규화 작업을 수행하기 위한 p,q,u,v,w,x 노드로 구성된다. 각 노드 간에는 해당

뉴런을 활성화 시키기 위한 gain control 이 연결되어 있다. 이러한 구조에 따른 ART2

알고리즘의 작동 과정은 다음과 같다.

가) STEP0 - Signal Function 의 설정

Signal Function 은 일반적으로 식(5.2)와 같은 연속이며, 미분 가능한 형태를

사용하거나 식(5.3)과 같은 Piecewise Linear 함수를 사용한다. 이는 F1 의 q, x

노드로부터 v노드로의 출력값을 계산하는 데 사용된다.

21

...........................................식(5.2)

...........................................................식(5.3)

본 시스템에서는 식(5.3)의 함수를 Signal Function 으로 사용한다.

나) STEP1 - 초기화 단계

ART2 의 수행에 필요한 파라미터들을 다음 식(5.4)에 따라 초기화한다.

.......식(5.4)

a,b,c 는 각각 F1 의 입력 벡터 정규화 작업의 수행을 위해 필요한 노드간의 입출력

값을 조정하는 계수이다. 또한 와 는 각각 네트워크의 학습률과 경계값을 의미하며

이 두 값은 사용자가 지정할 수 있다.

다) STEP2 - F1 Layer 의 계산 및 F2 Layaer 의 입력 계산

22

F1 의 각 노드는 새로운 입력 벡터 s 에 대하여 식(5.5)에 의해 초기화 된다. 따라서

새로운 입력 벡터가 네트워크에 투입되면 이전 벡터에 대한 기억은 F!으로부터

삭제된다 이러한 특성 때문에 F1 은 Short Term Memory 라 불린다.

....식(5.5)

식(5.5)에 의해 초기화가 끝나면 F2 의 각 j노드의 실제 입력을 식(5.6) 에 의해

계산한다.

.................................................식(5.6)

라) STEP3 - Winning node 의 선택 및 Reset Check

F2 의 노드 중 최대 출력값을 갖는 J 를 선택한다. 그리고 Reset 여부를 확인하기

위하여 식(5.7)에 의해 r 을 계산한다.

......................................식(5.7)

....................식(5.8)

23

이러한 계산 결과에 의하여 reset 이 true 가 되면 STEP3 을 반복한다. 그렇지 않을

경우 다음 단계로 넘어간다.

마) STEP4 - Weights 의 갱신

식(5.9)에 의하여 노드 J 의 가중치 벡터를 갱신한다.

........................................................식(5.9)

그리고 식(5.10)에 의하여 F1 노드들의 값을 계산해 낸다.

.........식(5.10)

이러한 학습 과정을 통해 노드 J 는 입력 벡터를 기억하게 된다. 이러한 기억은 새로운

입력 벡터가 투입되어도 F2 에 의해 지속적으로 유지된다. 이러한 특성 때문에 F2 를

Long Term Memory 라 부른다.

바) STEP5 - 반복

새로운 입력 벡터에 대하여 STEP2 - STEP4 의 과정을 반복한다.

가) - 바)의 과정을 T-D Matrix 에 존재하는 모든 문서 벡터에 대하여 수행하고 나면 서로

유사한 개념을 표현하는 문서 백터들은 같은 F2 노드에의 해 기억되며 이를 통하여 문서의

클러스터링이 가능하게 된다.

24

4. 실험 결과

이 절에서는 기존 검색 시스템이 제공하는 분류 체계를 따르는 문서 들을 추출하여 예제

문서로 구성 하고 본 연구에서 개발한 신경회로망을 사용한 자동 분류 시스템을 통해

분류하여 그 결과를 비교해 보았다.

4.1. 기존 검색 시스템의 분류 체계

기존의 검색 시스템들은 키워드 검색 이외에 일정한 분류 체계에 따른 카테고리 검색

기능을 제공한다. 이러한 분류 체계는 검색 시스템마다 상이하며 분류 체계의 구성을 위한

문서의 분류 작업은 수동적인 방법으로 수행된다.

25

[그림 ] Altavista 의 분류 체계

[그림 16]은 Altavisita 에서 제공하는 분류 카테고리의 일부분을 나타낸다. 분류 체계는

트리 형태의 계층적 구조를 가지며 트리의 각 단계별로 10 여 개의 카테고리를 제공한다.

이러한 분류 체계의 카테고리는 수작업에 의해 생성된 것임으로 인해 일반적인 트리

구조와는 다르게 [표 9]와 같은 특징을 갖는다.

[표 ] 검색 시스템의 분류 체계의 특징

일반 트리 검색 시스템의 분류 체계

동일 레벨간 상호배타성 성립 성립하지 않음

상하 레벨간일반성<->구체성 성립 성립하지 않음

포함관계 성립 성립하지 않음

이와 같은 특성은 WWW 문서 자체가 갖는 내용의 다양성과 중복성, 그리고 수작업에

26

의한 체계적이지 못한 분류 기준에서 비롯된다.

4.2. 예제 문서 및 실험 설계

4.2.1. 예제 문서의 구성

예제 문서 집합은 Altavista 가 제공하는 분류 체계를 따르는 문서들을 사용하여 문서

집합 A 와 문서 집합 B 로 구성하였다. 각 문서 집합의 구성은 다음과 같다.

가. 문서 집합 A (다계층 구조의 분류 체계)

문서 집합 A 는 Altavistia 의 분류 체계 중 가장 상위 레벨에 존재하는 “Computers &

Internet” 카테고리에 존재하는 문서들로 구성되며 3 단계의 계층 구조를 갖는다. [표 10]은

문서 집합 A 의 구조를 나타낸다.

[표 ] 문서 집합 A 의 구조

Level 1 Level 2 Level 3 문서 번호

Computers &

Internet Computer Science

AI & Robotics 1-10

Encryption 81-86

Operating System 87-95

Internet & Web Search Tool 96-105

Web Site Design 106-112

Cyber Cafe 113-121

27

Multimedia & Design

CAD & CAM 122-129

Music & Sound 130-136

Graphics & Animation 137-144

나. 문서 집합 B(단일 계층 구조의 분류 체계)

문서 집합 B 는 Altavista 의 분류 체계 중 3 단계의 세부 카테고리인 “AI & Robotics”에

존재하는 80 여 개의 문서들로 구성된 단일 계층 구조로 되어 있다. [표 11]에서 보는 바와

같이 “AI & Robotics” 아래는 “Expert System”, “Fuzzy Logic”, “Genetic Algorithm”,

“Handwriting Recognition”, “Neural Network”, “Vision”, “Speech Recognition” 의 7 개의

하위 카테고리가 있다.

[표 ] 문서 집합 B 의 구조

Level Category 문서의 번호와 제목 개수

AI

&

Exert System - 1. ILLIGAL Homepage

- 2. CLIPS : Tool For Building Expert System

- 3. JESS, The Java Expert System Shell

9

28

Robotics

Fuzzy Logic

- 13. Topic/Area/Fuzzy,

- 14. Fuzzy Logics,

- 15. Fuzzy CLIPS

9

Genetic

Algorithm

- 21 Genetic Algorithms Archive

- 22. The Genetic Algorithms Group, George Mason University

- 23. Vienna University of Economics Genetic Programming Kernel

10

Handwriting

Recognition

- 31. CEDAR Homepage

- 32. Software & Hardware for Pattern Recognition &Image

Processing Research

- 33. EE Times - Smart Technology

9

Neural

Network

- 41. Neural Network

- 42. Neural Network by Kevin Gurney

- 43. Neural Network At Pacific Northwest National Laboratory

8

Robotics- 51. UC Berkely Robotics and Intelligent Machine LAB.

- 52, USC Robotics Research LAB2

Vision

- 61. Computer Vision / Image Analysis Lab at USF

- 62. Image Processing and Computer Vision in INFOMATIK III

- 63. UMass Computer Vision - Home Page.

10

Speech

Recognition

- 71. Applied Speech Technology Lab / CSLI / Stanford University

- 72. Interactive System Lab.

- 73. Commercial Speech Recognition.

9

29

4.3. 실험 결과 및 분석

4.3.1. 문서 집합 A 의 분류 결과

가. 분류를 통한 계층 구조

[표 12]는 문서 집합 A 를 본 시스템을 사용해서 2 단계 까지 분류 결과를 나타낸다.

[표 ] 문서 집합 A 의 분류 결과

Level 1 Level 2 Level 3 관련 카테고리 적중률

Computer

s &

Internet C00

81,82,84,85,86,91

,92,93,94,100,103

,107,108,110,112,

116,123,126,135,1

40,140

C000 81,82,84,85,86 Encryption 100%

C001 91,92,93,94 Operating System 100%

C002100,103,107,108,110,11

2,114,116,126,140,Internet & Web 80%

C003 135 None 0%

C0198,99,102,104,10

5,137

C004 98,99,102,104,105 Search Tool 100%

C005 137 None 0%

C02106,109,114,118,1

41,143

C006 106,109,118 Web Site Design 66%

C007 141,143 Graphics & Animation 100%

C008 114 None 0%

C03 123,127,128,129, C009 123,127,129,136 CAD&CAM 75%

30

136,117

C010 117 None 0%

C011 128 None 0%

C0490,101,119,130,13

1,133,138,139

C012 101 None 0%

C013130,131,133,138,139,11

9,90Multimedia & Design 71%

C05 144,88,115

C014 144, None 0%

C015 115 None 0%

C016 88 None 0%

나. 적중률의 계산

[표 12]에 나타난 적중률의 계산은 본 시스템의 분류에 의해서 생성된 카테고리에

포함되는 문서와 이에 해당하는 Altavista 의 분류 카테고리에 포함되는 문서들의 포함

비율을 계산함으로써 수행된다. 예를 들어 본 시스템의 분류 카테고리인 C002 는 Altavista

의 분류 카테고리인 “Internet & Web”과 대응되며 C002 에 포함된 10 개의 문서 중 126

번과 140번이 다른 카테고리에 해당되므로 C002 의 적중률은 80%로 나타낼 수 있다.

이를 수식화 하면 다음 식(6.1)과 같다.

..................................식(6.1)

31

4.3.2. 문서 집합 B 의 분류 결과

가. 분류 결과

[표 13] 는 문서 집합 B 의 분류 결과를 나타낸다.

[표 ] 문서 집합 B 의 분류 결과

L1 Ll2 문서번호(= 0.1) 관련 카테고리 문서번호(=0.2) 관련 카테고리 적중률

AI C 1 2,3,6,8,10 Expert System 2,3,6,8,10 Expert System 100%

C 2

11,12,13,14,15,1

6,17,18,19,21,23

,25,27,28,30

Fuzzy

Logic/Genetic

Algorithm

11,12,13,14,15,1

6,17,18,19Fuzzy Logic 100%

C 3

31,32,35,37,38,3

9,40,71,72,73,75

,76,78,79,80

Handwriting/

Speech

Recognition

21,23,25,27,28,3

0

Genetic

Algorithm100%

C 422,24,26,41,42,4

3,44,45,49,50

Neural

Network /

Genetic

Algorithm

22,24,26Genetic

Algorithm100%

C 561,63,64,65,66,6

8,70Vision

31,35,37,38,39,4

0

Handwriting

Recognition100%

C 6 32,41,42,43,44,4 Neural 88%

32

5,49,50 Network

C 771,72,73,75,76,7

8,79,80

Speech

Recognition100%

61,63,64,65,68,7

0Vision 100%

C 84,7,29,35,36,59,

6,67,Miss Classified

나. 결과의 분석

[그림 15]은 각 문서를 표현하는 문서 벡터의 일부를 나타낸다.

33

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 0 1 9 2 8 3 7 4 6 5 5 6 4 7 3 8 2 9 1 1 0 0 1 0 9 1 1 8 1 2 7 1 3 6 1 4 5 1 5 4 1 6 3 1 7 2 1 8 1 1 9 0 1 9 9 2 0 8 2 1 7 2 2 6 2 3 5 2 4 4 2 5 3 2 6 2

1계 열

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 0 1 9 2 8 3 7 4 6 5 5 6 4 7 3 8 2 9 1 1 0 0 1 0 9 1 1 8 1 2 7 1 3 6 1 4 5 1 5 4 1 6 3 1 7 2 1 8 1 1 9 0 1 9 9 2 0 8 2 1 7 2 2 6 2 3 5 2 4 4 2 5 3 2 6 2

1계 열

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 0 1 9 2 8 3 7 4 6 5 5 6 4 7 3 8 2 9 1 1 0 0 1 0 9 1 1 8 1 2 7 1 3 6 1 4 5 1 5 4 1 6 3 1 7 2 1 8 1 1 9 0 1 9 9 2 0 8 2 1 7 2 2 6 2 3 5 2 4 4 2 5 3 2 6 2

1계 열

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 0 1 9 2 8 3 7 4 6 5 5 6 4 7 3 8 2 9 1 1 0 0 1 0 9 1 1 8 1 2 7 1 3 6 1 4 5 1 5 4 1 6 3 1 7 2 1 8 1 1 9 0 1 9 9 2 0 8 2 1 7 2 2 6 2 3 5 2 4 4 2 5 3 2 6 2

1계 열

M i s s C l a s s i f i e d # 2 9

G e n e t i c A l g o r i t h m

C l a s s i f i e d # 2 1 , 2 3 , 2 5

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 0 1 9 2 8 3 7 4 6 5 5 6 4 7 3 8 2 9 1 1 0 0 1 0 9 1 1 8 1 2 7 1 3 6 1 4 5 1 5 4 1 6 3 1 7 2 1 8 1 1 9 0 1 9 9 2 0 8 2 1 7 2 2 6 2 3 5 2 4 4 2 5 3 2 6 2

1계 열

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 1 0 0 1 1 1 1 2 2 1 3 3 1 4 4 1 5 5 1 6 6 1 7 7 1 8 8 1 9 9 2 1 0 2 2 1 2 3 2 2 4 3 2 5 4 2 6 5

1계 열

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 0 1 9 2 8 3 7 4 6 5 5 6 4 7 3 8 2 9 1 1 0 0 1 0 9 1 1 8 1 2 7 1 3 6 1 4 5 1 5 4 1 6 3 1 7 2 1 8 1 1 9 0 1 9 9 2 0 8 2 1 7 2 2 6 2 3 5 2 4 4 2 5 3 2 6 2

1계 열

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 1 0 0 1 1 1 1 2 2 1 3 3 1 4 4 1 5 5 1 6 6 1 7 7 1 8 8 1 9 9 2 1 0 2 2 1 2 3 2 2 4 3 2 5 4 2 6 5

1계 열

F u z z y L o g i cM i s s C l a s s i f i e d # 1 4

C l a s s i f i e d # 1 1 , 1 2 , 1 3

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 0 1 9 2 8 3 7 4 6 5 5 6 4 7 3 8 2 9 1 1 0 0 1 0 9 1 1 8 1 2 7 1 3 6 1 4 5 1 5 4 1 6 3 1 7 2 1 8 1 1 9 0 1 9 9 2 0 8 2 1 7 2 2 6 2 3 5 2 4 4 2 5 3 2 6 2

1계 열

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 0 1 9 2 8 3 7 4 6 5 5 6 4 7 3 8 2 9 1 1 0 0 1 0 9 1 1 8 1 2 7 1 3 6 1 4 5 1 5 4 1 6 3 1 7 2 1 8 1 1 9 0 1 9 9 2 0 8 2 1 7 2 2 6 2 3 5 2 4 4 2 5 3 2 6 2

1계 열

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 1 0 0 1 1 1 1 2 2 1 3 3 1 4 4 1 5 5 1 6 6 1 7 7 1 8 8 1 9 9 2 1 0 2 2 1 2 3 2 2 4 3 2 5 4 2 6 5

1계 열

0

0 . 2

0 . 4

0 . 6

0 . 8

1

1 . 2

1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 1 0 0 1 1 1 1 2 2 1 3 3 1 4 4 1 5 5 1 6 6 1 7 7 1 8 8 1 9 9 2 1 0 2 2 1 2 3 2 2 4 3 2 5 4 2 6 5

1계 열

E x p e r t S y s t e m

M i s s C l a s s i f i e d # 7

C l a s s i f i e d # 2 , 3 , 4

[그림 ] 문서 벡터

각각의 카테고리에서 분류되지 않은 7,14,29번 문서의 문서 벡터 형태는 그림에서 보는

바와 같이 해당 카테고리에 포함되는 다른 문서 벡터와는 상이한 형태를 띄고 있다. 문서 7

은 Javascript 문서이고 문서 14 와 19 는 인공 지능에 관한 광범위한 내용을 담고 있는

문서이다.

34

5. 결론 및 토의

5.1. 결론 및 기대 효과

본 연구에서는 정보 추출 분야의 기본 이론과 관련 연구들을 분석하고 기존 검색

시스템의 분석을 통해 WWW 상의 정보 추출에 있어서의 문제점과 효과적인 정보 추출을

위한 요구사항을 분석하여 보았다.

이를 바탕으로 기존 정보 검색 방식의 비효율성을 해결할 수 있는 방안으로 ART2

신경회로망의 분류 메커니즘을 적용하여 HTML 문서를 그 내용에 따라 분류할 수 있는

방법론을 제시하였다. 또한 실제 프로토타입 시스템을 구현하여 예제 HTML 문서 집합의

분류 작업을 시험해 본 결과, 본 연구에서 제시한 접근 방법이 효과적으로 작동할 수

있다는 근거를 제시할 수 있었다.

본 연구에서 Unsupervised Learning 메커니즘을 이용한 정보의 자동 분류의 방법론을

통해 WWW 상에서의 정보 검색에 있어서 다음과 같은 기대 효과를 얻을 수 있다.

첫째, 정보 검색 속도 및 성능을 향상시킬 수 있다 - 방대한 검색 결과를 내용에 따른

분류 제시를 통해 사용자는 원하는 특정 분야의 정보만을 검색함으로써 불필요한

검색 시간을 줄일 수 있다.

둘째, 검색하고자 하는 개념을 구체화 해나갈 수 있다 - 반복적인 분류 작업을 통해

방대한 양의 문서가 보다 구체적인 개념으로 분할되고 이로부터 보다 구체화된

새로운 질의의 구성이 가능하며 이를 통해 검색하고자 하는 개념을 계속하여

구체화 할 수 있다..

35

세째, 특정 분야의 개념 체계의 자동 생성이 가능하다. - 개념의 구체화 및 계층적 분류

과정을 통해 특정 분야를 구성하는 하부 분야 및 개념 체계를 자동으로 구성해 낼 수

있다. 또한 추출된 키워드들을 사용하면 해당 분야의 개념 체계를 기술하는

시소러스(thesaurus)를 자동을 구성해 낼 수 있다.

5.2. 토의 사항

본 연구에서는 기본적인 접근 방법과 이를 위한 프로토타입만을 제시하였다. 보다

완벽한 분류 시스템의 구성을 위해서는 다음과 같은 문제점을 해결해야 할 것으로

생각된다.

보다 효과적인 문서의 Pre-Processing 과정이 요구된다. 문서의 내용에 따른 분류

과정은 분류 알고리즘 자체 보다는 문서의 사전 처리 및 Representation 과정이

더욱 중요한 비중을 차지한다고 볼 수 있다. 따라서 내용을 보다 잘 표현할 수 있는

효과적인 Representation 방법론이 요구된다.

Input Vector 의 Dimension 이 지나치게 크다. 이는 Input Vector 를 생성하는 데 있어서

문서에 존재하는 각각의 단어를 사용하기 때문이다. 이를 개선하여 문서에

존재하는 어휘들을 유사한 개념에 따라 클러스터링 하여 Input Vector 의 Dimension

을 줄일 수 있는 방법에 대한 연구가 뒤따라야 할 것으로 생각된다.

효과적인 검색 결과 제시를 위한 정보 가시화 방법론 연구가 필요하다. 현재는 분류

결과가 트리 형태로 제시되고 있으나 많은 문서 검색 시스템이나 분류 시스템들에

있어서 Graphical 한 분류 결과를 제시하는 경우가 많다. 이러한 방법론에 대한

고려가 필요할 것으로 생각된다.

36

Documents

2scai/Courses/g-slt99/TermPrj/99460... · Web view정보 추출 이론의 중요 연구 분야는 크게 다음의 세 가지로 구분해 볼 수 있으며 이를 수행하는 접근