[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의

2007. 7. 12

숭실대학교 마이닝연구실

민병국

<마이닝연구실 내부 세미나>

단어연관그래프를 이용한단어 의미의 자동 군집 기법

2 단어연관그래프를 이용한 단어 의미의 자동 군집 기법2007-06-12

목 차

• 연구 배경

• 연구 목적

• 관련 연구

• 연관단어 클러스터링 기법

• 실험 및 평가

• 결론 및 향후 과제


연구 배경

웹검색

질의어: ‘향수’

검색 결과 100건 내

• 영화 ‘향수’ – 88건

• 세면도구 ‘향수’ - 7건

• 욕망 ‘향수’ - 5건


연구 배경

개념적 계층 관계만 표현

연관 관계 반영 못함

신조어 반영이 어려움

시소러스 자동 확장 필요


연구 목적

• 연관단어 클러스터링 기법– 단어의 중의성 고려

– 연관성 있는 의미군집의 생성

– 검색 및 분류 등의 의미상 특징으로 사용

• 텍스트 마이닝: 컴퓨터가 텍스트를 분석하고 이해하고 생성

– Information Extraction– Topic Tracking– Summarization– Categorization– Clustering– Concept Linkage– Information Visualization– Question Answering


향수 - 지능형 검색 서비스

웹 문서 검색 결과 검색어 – “향수”에 대한 결과

검색어 확장 : 향수 향기 화장품 샤넬

검색어 확장 : 향수 고향 추억 그리움

검색어 확장 : 향수 영화 그루누이

질의어 확장 또는 검색결과를 분류/군집화하여 제공

활용 방안


논문의 주요 아이디어

• 단어간 연관도 측정– MI의 정규화된 값인 Standized Mutual Information을 사용

(※ 이하 SMI라고 기술)

• 연관단어 클러스터링– 집괴적인 계층형 군집 알고리즘 CHAMELEON 사용

• 단어연관그래프의 분할– 단어연관그래프에 적합한 수정된 Matching 알고리즘 제안

• 연관단어 군집의 질적 평가– 군집을 군집내 간선의 밀도 Density로 선별


중간발표 지도사항

• 동시출현단어군 내에서의 클러스터링 과정시 클러스터의 개수의 선정 방법? (사전 또는 사후)– 클러스터 개수가 자동으로 정해지는 클러스터링 방법을 사용

– 클러스터 밀도 평가를 통해 양질의 클러스터 선별

• 각 클러스터에서 대표어를 추출하는 방법– 클러스터의 내의 단어들과 연결된 간선의 무게가 가장 높은 단어

• 일반명사와 고유명사의 구분과 처리 방법– 단어연관그래프가 만들어지는 모든 명사에 대해 처리 가능

• 기존의 시소러스 확장 관련 연구에 대한 조사

• 관련연구 부족


최종발표 지도사항

• 관련 연구– Dekang Lin, “Using Syntatic Dependency as Local Context to Resolve

Word Sense Ambiguity”, In Proceedings of ACL/EACL-97, 1997, pp.64-71.– Dominic Widdow, Beate Dorow, “A Graph Model for Unsupervised Lexical

Aquisition”, In 19th International Conference on Computational Linguistics, 2002, pp.1093-1099.

– Tomohiko Sugimachi, Akira Ishino, Masayuki Takeda, Fumihiro Matsuo, “A Method of Extracting Related Words Using Standardized Mutual Information”, Lecture Notes in Computer Science, 2003, pp.478-485.

– 이승우, 이근배, “국소 문맥과 공기 정보를 이용한 비교사 학습방식의 명사의미 중의성 해소”, 한국정보과학회논문지B, 2000, pp.769-783.

– 신사임, 최기선, “의미 경계의 현실화를 위한 공기정보의 자동 군집화”, 한국정보과학회추계학술대회, 2004, pp.559-561.

• 제안한 기법의 평가 방안– 군집평가인덱스를 사용한 군집 결과의 상대적 평가– 상대적 군집평가인덱스 S_Dbw를 단어연관그래프에 사용할 수 있도록 재정

의 S_DbwWRG 인덱스– 수록: 논문 pp.33-38.


관련 연구

• 말뭉치 기반의 단어 중의성 연구

– 대단위 말뭉치로부터의 local contexts 에 관한 연구

– WordNet 등의 시소러스를 이용한 중의성 해결

– 사전 등의 공기정보를 이용한 중의성 해결

• Two occrrences of the same word have identical meanings if they have similar local contexts

• Two different words are likely to have similar meaningsif they occur in identical local contexts.


관련 연구

• 상호정보량(Mutual Information: MI)– 단어 w1와 w2가 같이 출현할 확률

• P(w): the probability of w occurring in a document

• 정규화된 상호정보량 (Standized Mutual Information: SMI)– 낮은 빈도의 단어와의 상호정보량은 큰 값을 갖는 왜곡 현상 문제

)()(),(log),(21

2121 wPwP

wwPwwI =

ji

jiwwIwwZ

,

,2121

),(),(

σµ−

=

단, i는 w1의 빈도 그룹, j는 w2의 빈도그룹

σi,j 는 그룹 i, j의 상호정보량 표준편차

μi,j 는 그룹 i, j의 상호정보량 평균


관련 연구 - 단어연관그래프

• 단어연관그래프: Gθ( w )– vertex: 단어 (단어 w와 w의 연관단어)– edge: 임계치 θ에 대해 I( w1, w2) > θ 를 만족하는 관계, 완전연결 아님

– Wθ( w ): 단어 w에 대한 연관단어

대출

신용대출

전세대출

학자금

직장인

담보담보대출

연체자

당일대출

연체대납

현황

도서관

소장자료

희망도서

조회

[ 그림 ] 단어연관그래프 Gθ( 대출 ), θ = 2.1

…

…


관련 연구 – 군집 알고리즘

• CHAMELEON - A Hierachical Clustering Algorithm– 계층적 군집화로 동적인 모델링을 찾는 군집화 알고리즘

– Intra-cluster similarity를 최대화 하고 Inter-cluster similarity를 최소화하는 데이터를 그룹핑

• 작동방법

STEP 1. K-nearest Neighbor Graph 로부터 하부 군집으로 그래프 분할

STEP 2. 하부 군집을 반복적으로 병합: 시간 복잡도 O(n2)• 군집 유사도

– 상대적인 상호연결성: RI ( Ci, Cj )– 상대적인 근접도: RC ( Ci, Cj )

그림. Overall freamework CHAMELEON


그래프 분할 알고리즘

• Graph Partitioning– Global method, Local method,

Multilevel hybrid method

• Multilevel Graph Partitioning– Coarsenining 단계

– Initial Partitioning 단계

– Uncoarsening 단계

• Multilevel k-way partitioning– 그래프 G = ( V, E ), | V | = n

G0 G0

Gi

• Vi ∩ Vj = 0, for i ≠ j• | Vi | = n / k• V1 ∪ V2 ∪ … ∪ Vk = V• edge-cut 값은 최소가 되어야 함


CHAMELEON 알고리즘 – 1. 분할 단계

• Matching Algorithm– Random Matching (RM)– Heavy Edge Matching (HEM)– Light Edge Matching (LEM)– Heavy Clique Matching (HCM)

)()()( 1 iii MWEWEW −=+

단, W(A)는 A의 간선의 무게의 합 (edge weight)

※ A matching of a graph is a set of edges, no two of which are incident on the same vertex.


CHAMELEON 알고리즘 – 2. 병합 단계

• 클러스터 유사도

– Relative Inter-Connectivity

– Relative Closeness

• 클러스터 병합 결정 (2가지 방법)– 두 척도의 임계치를 만족하면 병합 (Threashold: TRI , TRC )

– 두 척도의 곱으로 이루어진 척도를 만족하면 병합 (Threashold: TSIM )

SIMjiji TCCRCCCRI ≥⋅ α),(),(

RIji TCCRI ≥),( RCji TCCRC ≥),(and


Cluster Validation Index (CVI)

• S_Dbw 인덱스:– 상대적 군집 평가방법을 위한 인덱스

– Density 정의• 군집 내 데이터 u에 대해서 반지름 stdev 내의 존재하는 데이터 개수

– 군집 적합도 인덱스• Inter-Cluster Density: 군집간 밀도의 평균, 낮을 수록 좋음

– vi, vj는 군집 i, j의 centroid; mij는 vi와 vj의 centroid

• Intra-Cluster Variance: 전체에 대한 군집의 평균분산의 비율, 낮을 수록 좋음

∑=

=n

ii uxfudensity

1),()(

>

=otherwise

stdevuxduxf

:1),(:0

),(

∑ ∑=

≠=

−=

c

i

c

jij ji

ij

vdensityvdensitymdensity

cccbwDens

1 1 )}(),(max{)(

)1(1)(_

∑=

=c

ii Sv

ccScat

1

22 )(/)(1)( σσ

)()(_)(_ cScatcbwDenscDbwS +=


연관단어 클러스터링 단계

STEP 01 빈도 테이블 구성

STEP 02 단어간 연관도 계산

STEP 03 단어연관그래프 구성

STEP 04 단어연관그래프 분할

STEP 05 연관단어 군집화

STEP 06 최적의 군집 결과 선정

상호정보량(MI)

패싯 분류법

단어연관그래프

그래프 분할 알고리즘

CHAMELEON 군집 알고리즘

Density

2007-04-16


시스템 흐름도

웹문서

단어빈도테이블

동시출현빈도테이블

가정의료기기 간병용품

medi

mall

의료용품

아로마

목욕용품

아로마테라피

공유기

네트워크

랜카드

라우터

건강보조식품

허브

가정의료기기

간병용품medi

mall

의료용품아로마

공유기네트워크

랜카드라우터

건강보조식품

아로마

목욕용품아로마테라피

간병용품,건강보조식품아로마,의료용품,medi

, …

아로마,목용용품아로마테라피

, …네트워크,공유기라우터,랜카드

정규화된상호정보량

테이블

연관단어의미그룹1

연관단어의미그룹2

단어 “허브”

단어연관그래프

그래프 분할하부군집 병합단어 ‘허브’의연관단어 군집테이블


1단계, 2단계

단어1 단어2 빈도수

허브 네트워크 69

…

허브 건강보조 56

허브 아로마 138

…

허브 랜카드 36

…

웹문서

빈도그룹1 빈도그룹2 MI 평균 MI 표준편차

1 1 -0.8268 1.9427

1 2 -0.7239 1.9981

1 3 -0.6954 1.9842

… … … …

2 1 -0.7239 1.9981

2 2 -0.4330 1.9364

… …

단어 빈도수 빈도그룹

네트워크 3523 1

건강보조 748 8

… … …

허브 597 9

아로마 448 12

… … …

랜카드 131 44

기준단어 연관단어 SMI

허브 가정용의료기 2.7697

허브 간병용품 2.9988

허브 건강보조식품 2.4979

허브 공유기 2.3664

허브 네트워크 2.1771

허브 라우터 3.0372

… ... ...

허브 medi 2.4461

단어 빈도테이블

동시출현 빈도테이블

빈도그룹별 평균, 표준편차 테이블

정규화된 상호정보량 테이블


3단계: 단어연관그래프 구성

• 단어연관그래프 Gθ( w )– 연관단어 테이블

• 기준단어 w 설정

• 연관도 임계치 θ 설정

– 연관단어 간선 테이블

기준단어 연관단어 SMI

허브 가정용의료기 2.7697

허브 간병용품 2.9988

허브 건강보조식품 2.4979

허브 공유기 2.3664

허브 네트워크 2.1771

허브 라우터 3.0372

… ... ...

허브 medi 2.4461

가정의료기기 간병용품

medi

mall

의료용품

아로마


공유기

네트워크

랜카드

라우터

건강보조식품

허브

연관단어1 연관단어2 SMI

아로마 의료용품 2.7844

아로마 mall 2.7841

아로마 아로마테라피 2.4687

mall 의료용품 3.5834

mall 간병용품 3.3881

간병용품 아로마 3.3623

… … …

라우터 공유기 2.3881


4단계: 단어연관그래프 분할

• 단어연관그래프의 특성

– 단어는 하나 이상의 의미를 가질 수 있음

• 단어는 1개의 의미 그룹에서는 1개의 의미만을 가짐

• 1개 이상의 그룹에서 나온 단어는 서로 다른 의미를 가짐 (관계성 없음)– 단어는 다른 단어와의 연결을 통해서 의미 그룹을 형성

• { “삼성”, “소니”, “디지털카메라” } vs { “삼성”, “소니”, “프린터” }

• 단어연관그래프 분할

– 단어연관그래프: G = ( V, E ), | V | = n– subgraph의 최소 vertex 크기: MIN_SIZE

• |Vi ∩ Vj| ≥ 0, for i ≠ j• | Vi | ≥ MIN_SIZE• V1 ∪ V2 ∪ … ∪ Vk = V• 중복되는 vertex 개수는 최소가 되어야 함


단어연관그래프 분할

• 단어연관그래프를 위한 HEM 알고리즘 (HEMWRG)1단계: 연결된 vertex끼리 묶은 가능한 모든 subgraph 생성 (Depth=1)

• subgraph 간에는 간선 무게 없음

• 포함한 간선의 weight의 합으로 subgraph의 weight 계산

2단계: weight가 가장 큰 subgraph부터 낮은 순으로 이동

3단계: weight가 가장 작은 subgraph부터 같은 vertex를 가진 subgraph 탐색

• 찾은 subgraph의 번호로 matched 표시

4단계: unmatched 된 vertex를 가진 subgraph 모아 연결하기

• 모든 vertex가 matched 된 subgraph는 제거

a b

d

c

e

f

4

2

11

3

3

1

2

b,a,c,f

b,e,f

a,b,c,d

a,b,c,d,e

a,d,c,e c,d,e,f 8

2

10 9

9

14 5


하부그래프2~7간선무게합: 14.2520

단어연관그래프 분할

• 연관도 기준단어 “허브” – SMI 2.2 이상

가정의료기기

간병용품medi

mall




랜카드라우터

건강보조식품

하부그래프1간선무게합: 68.3576




하부그래프2~7간선무게합: 14.2520하부그래프2~7

간선무게합: 60.5544

하부그래프2~7간선무게합: 14.2520

하부그래프9,10간선무게합: 7.8032





5단계: 연관단어 클러스터링

• 연관도 기준단어 “허브” – SMI 2.1 이상, TSIM > 0.7

허브

RI*RC1.5 = 0.2215( RI=0.2357, RC=0.9595 )

RI*RC1.5 = 0.9604( RI=0.9839 , RC = 0.9839 )

RI*RC1.5= 0( RI=0.0, RC=0.0 )

가정의료기기

간병용품medi

mall


건강보조식품

1


라우터

4


아로마2


랜카드3

RI*RC1.5= 0( RI=0.0, RC=0.0 )


6단계: 최적의 군집 결과 선정

• 단어연관그래프에서의 S_Dbw 활용: S_DbwWRG– Density 정의

• 그래프의 Vertex 간 연결간선의 무게합 x 완전연결에 대한 비율

– 군집 적합도 인덱스• Inter-Cluster Density: 군집 사이의 간선 밀도의 평균, 낮을 수록 좋음

• Intra-Cluster Variance: 군집의 간선평균밀도에 대한 전체 간선밀도의 비율, 낮을 수록 좋음

∑=−

=||

1)1(2)(

E

kkw

nnGdensity

∑ ∑=

≠=

−=

c

i

c

jij ji

ijWRG GdensityGdensity

Gdensitycc

bwDens1 1 )}(),(max{

)()1(

1_

= ∑ =

cGdensity

GdensityScatc

i iWRG

1)(

/)(c는 군집의 개수


6단계: 최적의 군집 결과 선정

C1 C2

C3

G1,2

G1,3 G2,3

a

c

d

e

b

h

f g

i

3

2 1

2 1 3

C1 C2

C3

S

G1G2

G3

density(G1)=1.1

density(G2)=0.7

density(G3)=0.8

density(G)=0.5

(가) 그래프 G의Dens_bwWRG

(나) 그래프 G의ScatWRG

기준단어 병합 임계치 군집수 Dens_bw Scat S_Dbw

허브

0.1 3 0.0000 0.2539 0.2539

0.2 4 0.0580 0.2444 0.3024

0.3 4 0.0580 0.2444 0.3024

0.4 5 0.0621 0.1889 0.2510

0.5 5 0.0621 0.1889 0.2510

0.6 5 0.0621 0.1889 0.2510

0.7 5 0.0621 0.1889 0.2510

0.8 6 0.1076 0.1763 0.2839

0.9 6 0.1076 0.1763 0.2839

1 6 0.1076 0.1763 0.2839


실험 데이터

• 원본 데이터

– 내용: 웹사이트 설명문

• 실험 데이터

– 단어군 상위 10,000개 선정 (최상위 30개 단어 제외)– 동시출현 단어쌍 개수: 2,276,992 개

단어 빈도 빈도순위

제공 86,029 1

소개 84,046 2

안내 48,756 3

수록 46,673 4

전문 46,585 5

판매 43,087 6

정보 36,578 7

관련 26,662 8

위치 26,027 9

서비스 21,660 10

… … …

원본 데이터 실험 데이터 백분율

문서수 477,449 470,391 98.52%

단어수 425,099 10,000 2.35%

총 레코드수 5,326,060 2,544,131 47.77%

최상위 빈도 30개 단어 제외

데이터 비교

※ 두 단어 쌍 테이블 크기: 2,276,992 rows


평가 방법

• 군집 알고리즘 비교 대상 (클레멘타인 참조)– K-평균 군집 알고리즘

– Two Step– Anomaly Detection

• 평가 데이터

– 중의성을 가진 단어 30개, SMI 2.1 이상의 연관단어

• 연관단어 군집의 결과 평가

– 응용시스템의 만족도 조사

– 의미태깅된 평가 데이터 사용

대출, 양식, 배낭, 이전, 스포츠, 자동차, 렌탈, 포인트, 가사, 시공

도서, 지원, 보안, TV, 전략, 기술, 신청, 단체, 용품, 포장, 레이져, 재생, 등…


결과 및 평가

자동차

기아자동차

명차

기아

대우자동차

마티즈

칼로스

차량관리

신차

…

보트

비행기

헬기

rc

프라모델

모형

요금표

장기대여

차종

고속도로

편의시설

휴게소

도로안내

휴식공간

고무부품

부품

joint

hose

서스펜션

배기

튜닝

에어댐

시트

타이어

경정비

구조변경

• 기준단어: 자동차

– 연관단어 선정: SMI > 2.1 (연관단어 71개, 간선 119개)– 그래프 분할: MIN_SIZE ≥ 3 (하부 군집 18개)– 군집 병합: TSIM > 1.0– 군집 선별: TD > 3.0

Density=6.4030

Density=6.6675

Density=7.0744

Density=4.1253

Density=2.0325

Density=1.5840


향후 연구 과제

• 실제 뉴스 데이터로 재실험– 각 단계별 임계치의 민감도 분석

– Similarity based Clustering 병행: Cosine 유사도 등…

• 단어 특성별 군집 분석– TF.IDF 사용

– Confidence, Lift 사용

• 어휘 사전의 자동 구축– Topic 별 연결

– 상, 하위 범주별 구축

– 시간대별 이슈 변화 연결

• 텍스트 마이닝의 요소 기술화


응용 분야 - #1. 이슈별, 시간별


응용 분야 - #2. 독자반응별


응용 분야 - #3. 시소러스별


참고 문헌

[ 1 ] 강신재, “온톨로지 구축 및 단어 의미 중의성 해소에의 활용”, 컴퓨터연구정보센터, 2004

[ 2 ] 이승우, 이근배, “국소 문맥과 공기 정보를 이용한 비교사 학습 방식의 명사 의미 중의성 해소”, 컴퓨터연구정보센터, 2000

[ 3 ] 허준희, 최준혁, 이정현, 김중배, 임기욱, “문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어문서 자동 분류 시스템”, 컴퓨터연구정보센터, 2001

[ 4 ] 김희수, 최익규, 김민구, “개념간 관계의 추출과 명명을 위한 통계적 접근 방법”

[ 5 ] 박흠, 권혁철, “웹 문서 클러스터링에서의 자질 필터링 방법”

[ 6 ] T. Sugimachi, A Ishino, M. Takeda, F. Matsuo, "A Method of Extracting Related Words Using Standardized Mutual Information“

[ 7 ] Han. Kamber, "Data Mining - Concepts and Techniques" p.413~443

[ 8 ] George Karypis, Eui-Hong (Sam) Han, Vipin Kumar, "CHAMELEON: A Hierachical Clustering Algorithm Using Dynamic Modeling"

[ 9 ] George Karypis, Vipin Kumar, "Multievel k-way Paritioning Scheme for Irregular Graphs"

[10] Y. Matsuo, M. Ishizuka, "Keyword Extraction from A Single Document using Word Co-Occurrence Statistical Information", World Scientific Publishing (2004)


참고 문헌

[11] Dawn Lawrie, W. Bruce Crofit, “Discovering and Comparing Topic Heirarchies”, In Proceedings of RIAD2000 conference, pp.314-330, 2000

[12] Dekang Lin, “Using Syntactic Dependency as Local Context to Resolve Word Sense Ambiguity”, Association for Computational Linguistics, 1997


Data & Analytics

[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의