36
Part-of-Speech Tagging Markov Model Tagger 를 를를를를 를를를를를 를를를를를를 를를를를를를를 를를를 정정정 정정정

Part-of-Speech Tagging Markov Model Tagger 를 중심으로

  • Upload
    ward

  • View
    143

  • Download
    0

Embed Size (px)

DESCRIPTION

Part-of-Speech Tagging Markov Model Tagger 를 중심으로. 부산대학교 컴퓨터공학과 한국어정보처리 연구실 정성원. 목 차. 일반적인 태깅 품사 태깅 기법 일반적 통계 기반 품사 태깅 한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완 어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가. Part-of-speech tagging ( 품사 태깅 ). - PowerPoint PPT Presentation

Citation preview

Page 1: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

Part-of-Speech TaggingMarkov Model Tagger 를 중심으로

부산대학교 컴퓨터공학과한국어정보처리 연구실

정성원정성원

Page 2: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

2

목 차

⊙일반적인 태깅 품사 태깅 기법 일반적 통계 기반 품사 태깅

⊙ 한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완

⊙ 어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가

Page 3: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

3

Part-of-speech tagging ( 품사 태깅 )

⊙ Part-of-speech tagging, PoS tagging: Assigning a part-of-speech category to each word-token in a text.

Page 4: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

4

품사 ( 범주 ) 분류 (Tagset)

⊙일반적 품사 분류의 목적 문장구조를 효율적으로 기술하고 처리하기 위함 되도록이면 자세하게 분류하는 것이 좋음 Major English tagsets: Penn (45 tags); Brown (87 tags);

Lancaster: CLAWS series of tagsets, C5, and C7 (for BNC, 146 tags).

⊙품사 분류 기준 기능 (function) : 각 단어 (or 형태소 ) 가 어느 문장 성분 ( 주어 ,

서술어 , 목적어 , 수식어 , 관계어 등 ) 자리에 놓일 수 있는지에 따른 분류

형태 (form): 각 형태소의 어형 변화나 굴절 특성에 따른 분류 의미 (meaning): 각 형태소의 의미에 따른 분류

⊙품사 태그 집합 크기의 변이 요소 적용한 품사 분류 기준 문장부호 및 조사의 세분화 정도

⊙품사분류의 일반적 목적에 부합하여 대부분의 연구들에서 기능 기준 분류를 일차적으로 고려함

Page 5: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

품사 ( 범주 ) 분류 ( 영어 , Penn Treebank)

Page 6: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

품사 ( 범주 ) 분류 비교 ( 한국어 )

Page 7: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

7

일반적 통계 기반 품사 태깅 1

⊙ 통계적 품사 태깅 한 문장을 이루는 어절열 w1,n 이 주어졌을 때 , 가장 확률이 높은 태그열 t1,n 을

구함

⊙ 일반적인 통계 기반 모델에서 tag 의 확률 이전의 history 에 대한 조건부 확률로 구함

⊙ 현실적으로는 전체 history 에 대해 조건부확률을 구하는 것이 불가능

∴ n-gram 모델을 도입하여 국부적인 문맥 (local context) 을 이용

),(maxarg)(

),(maxarg

)|(maxarg)(

,1,1,1

,1,1

,1,1,1

,1,1

,1

nntn

nn

t

nnt

n

wtPwP

wtP

wtPwT

nn

n

),|( 1,1,1 qqq twtP

관련연구

Page 8: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

Markov Assumptions

⊙ Let X=(X1, .., Xt) be a sequence of random variables taking values in some finite set S={s1, …, sn}, the state space, the Markov properties are:

⊙ Limited Horizon: P(Xt+1=sk|X1, .., Xt)=P(X t+1 = sk |Xt) i.e., a word’s tag only depends on the previous tag.

⊙ Time Invariant: P(Xt+1=sk|X1, .., Xt)=P(X2 =sk|X1) i.e., the dependency does not change over time.

⊙ If X possesses these properties, then X is said to be a Markov Chain

⊙ Tagging 에서의 Limited Horizon property

)(

),()|()|( 1

1,11i

iiiiii tC

ttCttPttP

Page 9: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

Markov Model

⊙ Visible Markov Model

⊙ Hidden Markov Model

h a p

e t i1.0

0.4

0.3 0.6

1.00.4

0.6

0.41.0

startP(t,i,p) = P(t)P(i|t)P(p|i)= 1.0 x 0.3 x 0.6 = 0.18

1

111

123121

112,13121

1

)|()(

)|()|()|()(

),...,|()|()|()(

),...,(

T

ttt

TT

TT

T

XXPXP

XXPXXPXXPXP

XXXPXXXPXXPXP

XXP

CP IP

cola

iced tea

lemonade

cola

iced tealemonade

0.3

0.5

0.50.7

0.60.1

0.3

0.1

0.70.2

{lemonade, ice tea}

0.7x0.3x0.7x0.1 + 0.7x0.3x0.3x0.1 +0.3x0.3x0.5x0.7 + 0.3x0.3x0.5x0.7 = 0.084

Page 10: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

품사 태깅에서의 HMM

⊙ HMM 이 성립될 요소 {S, V, A, B, π} S : 상태 ( 품사 )

V : 각 상태에서 일어날 수 있는 서로 다른 관측 심볼 ( 단어 )

A : 상태 전이 확률

B : 관측 확률

π : 초기 상태 확률

Page 11: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

11

일반적 통계 기반 품사 태깅 2

⊙ n-gram 차수가 높을수록 통계 기반 모델의 정확도는 더 높지만 현실적으로 n 이 큰 모델은 구축하기 힘듦

⊙ 타입 ( 가짓수 ) 의 통계정보를 유지하기 위한 사전의 메모리가 많이 필요

⊙ n-gram 차수가 높을 수록 자료부족 문제 심각 20,000 개의 연속된 어절 타입으로 이루어진 말뭉치에서 추출할 수 있는

이전 문맥을 고려한 bi-gram 19,999 개 (vs. 이론적 4 억 개의 조합 )

말뭉치 내 타입 bi-gram tri-gram four-gram …

20,000 4x108 8x1012 1.6×1017 …

관련연구

Page 12: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

12

일반적 통계 기반 품사 태깅 3

⊙ 태그 확률 우선 전개

⊙ 마르코프 가정 적용 현재 품사의 발생은 바로 이전의 품사에만 의존 (n=2, 품사 bi-gram)

현재 어절의 발생은 현재의 품사에만 의존 (n=1, 품사에 대한 어절 uni-gram)

⊙ 태그 확률 우선 전개 HMM 품사 태깅 모델 ( n=2, bi-gram 모델 )[Charniak93]

관련연구

)|(),|( 11,11,1 iiiii ttPwttP

)|(),|( 1,1,1 iiiii twPwtwP

n

iiiiiiinn wtwPwttPwtP

11,1,11,11,1,1,1 ),|(),|(),(

n

iiiii

tn twPttPwT

n 11,1 )|()|(maxarg)(

,1

Page 13: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

13

일반적 통계 기반 품사 태깅 4

⊙ 어절 확률 우선 전개

⊙ 마르코프 가정 적용 현재 어절의 발생은 바로 이전의 어절에만 의존 (n=2, 어절 bi-gram)

현재 품사의 발생은 현재의 어절에만 의존 (n=1, 어절에 대한 품사 uni-gram)

⊙ 어절 확률 우선 전개 품사 태깅 모델 [Charniak93]

관련연구

n

iiiiiii

tnn wttPwtwPwtP

n 1,11,11,11,1,1,1 ),|(),|(maxarg),(

,1

)|(),|( 11,11,1 iiiii wwPwtwP

)|(),|( ,11,1 iiiii wtPwttP

n

iii

t

n

iiiii

tn wtPwtPwwPwT

nn 111,1 )|(maxarg)|()|(maxarg)(

,1,1

Page 14: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

통계 정보 추출

P(NN|AT) = 48636/(48636+19) = 99.96

ti-1 ti ti+1

wi-1 wi wi+1

Page 15: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

최적 후보 열 선택 방법 - Best choice

⊙방법 후보들 중 선택 확률이 가장 높은 것을 선택

( 전후 어절 사이에 존재하는 전이 확률을 사용하는 것도 가능 )

음식을

명사 + 조사

수의존명사

명사

자타동사 + 어미

가지고

명사 + 조사

수의존명사 + 어미

타동사 + 어미

명사

타동사 + 어미

보조용언 + 어미

생각

명사

보조용언 + 어미

1 0.2

0.3

0.5

0.2

0.5

0.1

0.2 0

0.6

0.4

1명사 +조사

자타동사 +어미

타동사 +어미

명사

타동사 +어미

1

0.5 0.5

0.6

1

Page 16: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

Viterbi algorithm

⊙The Viterbi Algorithm works as follows: Initialization: δj(1) = πj, 1≤ j≤ N

Induction: δj (t+1) = max1≤ i≤N δi(t)aijbijo_t 1≤ j≤ NStore backtrace:ψj(t+1) = argmax1≤ i≤N δj(t)aij bijo_t 1≤ j≤ N

Termination and path readout:XT+1 = argmax1≤ i≤N δj(T+1)Xt = ψXt+1(t+1)P(X) = max1≤ i≤N δj(T+1)

Page 17: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

음식을

명사 + 조사

수의존명사

명사

자타동사 + 어미

가지고

명사 + 조사

수의존명사 + 어미

타동사 + 어미

명사

타동사 + 어미

보조용언 + 어미

생각

명사

보조용언 + 어미

S S

S

S

S

S

S

S S

S

S

S

Viterbi algorithm

⊙방법 앞 어절들과의 관계 중 가장 확률이 높은 것을 선택

Si+1a = argmax(Si-1 * Pi * Pi-1a)

계산이 끝난 후 back track 하면서 선택 함

명사

타동사 + 어미

보조용언 + 어미

명사Pia

Pi-1a

Pi-1b

Pi-1c

Pib

Pic

Pi+1a

PiaSi-1a

Si-1b

Pib

Si-1c

Pic

Pi+1aSi+1a

S S

S

S

S

S

S

S S

S

S

S명사 +조사

자타동사 +어미

타동사 +어미

명사

보조용언 +어미

S

S

S

S

S

Page 18: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

18

목 차⊙ 일반적인 태깅

품사 태깅 기법 일반적 통계 기반 품사 태깅

⊙한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완

⊙ 어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가

Page 19: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

19

한국어 품사 태깅

⊙ 통계 기반 한국어 품사 태깅 관련 연구 어절 n-gram 기반 HMM 모델을 그대로 응용

한국어 어절의 다양한 변화로 인한 자료부족 문제가 심각

형태소 n-gram 기반 모델로 수정 어절 내의 형태소결합제약에 따른 한국어의 어절 문맥정보를 효율적으로 반영하지 못함

형태소 n-gram 모델 보완1. 형태소 bi-gram 이상의 정보를 사용

2. 어절 문맥정보를 포함하기 위한 규칙 혼합 모델 제안

3. 경계 태그 사용

관련연구

Page 20: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

20

한국어의 형태 ◦ 통사적 특징 1

⊙ 형태소 구분 어휘형태소 ( 실질형태소 ) : 명사 , 수사 , 동사 , 형용사 , 부사 등

문법형태소 ( 의존형태소 ) : 어미류 , 조사류 , 접사류

⊙ 어절 내 형태소 결합 제약각 형태소들이 형태소 범주 간의 결합 제약 하에 어절을 형성

⊙ 어절 간 형태소열 결합 제약 한국어에서 각 어절은 이웃하는 어절과 ( 국부적 ) 통사 제약 관계를 이룸

⊙ 어절 내와 어절 간은 통계적인 분포가 다르므로 이중 HMM 모델을 구성

연구 대상 언어의 특징

Page 21: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

Tagged Corpus

⊙ 세종 Corpus 한국어의 통계적 언어처리를 위한 Golden Standard

구성 어절 수

문어 90%

신문 20%

약 10,000,000

잡지 10%

책 /정보 35%

책 /상상 20%

기타 5%

순구어 ( 전사 ) 5%

준구어 ( 대본 ) 5%

Page 22: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

실제 데이터 ( 일부 )

⊙원본

⊙ 형태소 Tag unigram

⊙ 형태소 Tag bigram

⊙ 형태소 unigram

Page 23: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

23

한국어 품사 태깅⊙ 어절 n-gram HMM 을 한국어 품사 태깅에 그대로 응용

[ 이운재 92]: 태그 17 개 고려 90% 의 정확도

⊙ 형태소 n-gram 기반 모델로 수정 [ 이상호 93 외 ]

고려사항 : 형태소 분석경계가 일치하는 것만 transition 을 설정

어절을 인식하지 못하고 어절간의 문맥 정보를 고려하지 못함 93.59% 의 정확도

n

iiiii

tn tmPttPmT

n 11,1 )|()|(maxarg)(

,1

관련연구

n

iiiii

tn twPttPwT

n 11,1 )|()|(maxarg)(

,1

Page 24: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

24

형태소 n-gram 모델 보완 1

⊙ 이중 HMM(Two-ply HMM) 모델 [ 김진동 96] 품사열 전이 확률 : 어절 간 품사 전이 확률 + 어절 내 품사 전이 확률

• 어절 간 문맥 매개변수를 형태소 단위로 모델링

장점 • 어절 단위 문맥 고려• 자료부족문제를 완화한다는 장점

단점 • 한국어의 언어적 특성을 반영하는 어절 간 형태소열 결합 제약조건에

비추어볼 때 직관적이지 못한 문맥 정보를 사용하는 경우 발생

n

i

Ni

jijijjiijiiii

cm

n

cmPccPhtPthP

eT

nn 1 1)1(

211

,

,1

1

,1,1

)|()|()|()|(maxarg

)(

hi = i 번째 품사열 ( 어절 ) 의 머리 (head)품사 ;

ti = i 번째 품사열 ( 어절 ) 의 꼬리 (tail) 품사

wi+1wiwi-1

… …VVhi-1

ETMti-1

VVhi

ETN NNhi+1

PXti+1

대하(다) ㄴ 기다리(다) ㅁ 지수 는

ø ø ø ø

결과에 대한 기다림의 지수는 얼마인가

PCDti

NNhi-1

대한

NNhi-1

대하

PXti-1

NNBUhi+1

PXti+1

지수 는

“ 관형형어미”와 “동사” 간의 전이

관련연구

Page 25: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

25

형태소 n-gram 모델 보완 2

⊙ HMM 을 확장하고 어절 경계 매개 변수를 적용한 모델 [Lee00] 새로운 매개변수 도입

장점 : 어절경계 인식 : 띄어쓰기 태그 ( 어절 경계 ) p 도입

단점 : 어절 내의 구조성은 파악을 못함tri-gram 을 통한 충분한 성능 확보 : 메모리 문제

∧(C[s](2:2), M[s](2:2)) => tri-gram 일 때 최고 성능(96.97%)

관련연구

),,Pr(maxarg

)|,Pr(maxarg)(

,1,2,1,

,1,1,1,

,1

,1,1

,1,1

uuumc

nuumc

n

mpc

wmcwT

uu

uu

Page 26: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

26

목 차⊙ 일반적인 태깅

품사 태깅 기법 일반적 통계 기반 품사 태깅

⊙ 한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완

⊙어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가

Page 27: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

27

Word Probability Estimation (1)

⊙ Word 는 형태소로 이루어져 있음

⊙Word 내 HMM 을 이용한 Word 추정

⊙가정 1 : Word 내 형태소들은 독립이다 .

),(),( ,, njinjiii mmtPwwtP

n

jjijijijinjinji mtmtPmtmPmmtP

11,,,,,, )|()|(),(

n

jjijinjinjiiinjinji mmtPmmtEPwwtEPmmtP

1,,,,,, ),(),(),(),(

M

mmtCmmtP

pqpq ),(),(

Eq(2)

Eq(1)

Page 28: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

Word Probability Estimation (2)

⊙가정 2 : 단어의 출현확률은 형태소 태그 패턴과 연관이 있다 .

⊙가정 3 : 단어의 생성은 각 형태소의 태그과 연관이 있다 .

n

jjijiinjinji mmtPwwtmmtEP

1,,,, ),(),(

n

j

wmtjijinjinji

jimmtPmmtEP1

,,,,,),(),(

wmt 형태소 태그의 가중치

wwt 형태소 태그 패턴의 가충치

Eq(4)

Eq(3)

Page 29: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

29

범주 패턴 종류

Page 30: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

30

⊙ 형태소 태그 패턴 통계 정보 추출을 위한 학습 자료 준비 및 학습

세종 Corpus 어절 내 형태소 태그 패턴통계 정보 추출 학습 시간의 단축을 위하여 균형적으로 표본 추출 형태소 태그의 가중치 학습 ( 시뮬레이티드 어닐링 알고리즘 사

용 )

학습학습 과정

NN+XSVV+ETMNN#NN

NN+PCO

형태소 태그 패턴별학습 자료 생성

NN+XSVV+ETMNN#NNNN+PCO

형태소 태그 패턴별학습 자료 표본

추출

시뮬레이티드어닐링

형태소 태그 가중치 매개 변수

0.95 0.56 ...

NN+XSVV+ETM

NN+PCO

0.76 0.65

1.0 0.9

...

...NN#NN

1.0 0.49 ...PNT # SB

...

0.82

...

...

wmti,1 wmti,2 ...형태소 태그 패턴 wmti,3

세종 Corpus

.

.

.

Page 31: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

31

학습 알고리즘⊙ 형태소 태그 가중치 학습 실제 관측된 형태소 열의 출현 확률과 형태소 태그 패턴을 기반으로 추정한

형태소 열 출현 확률의 오차가 최소가 되는 방향으로 형태소 태그 가중치 학습

j

Tmt

jjjwcp

j

j

Tmt

jjjj

TmtwmtmtmEPmtmRPmttif

TmtwmtmtmEPmtmRPmtErrorMean

j

j

j

1;*

1

),,(),(logminarg,

),,(),(log)(

Tmtj = 학습에 사용한 총 형태소 태그 패턴 개수 mγ = 학습에 사용한 패턴 집합 중 형태소 태그 패턴 mtj 로 어절을 형성하는 γ 형태소열RP = 실 관측 확률EP = 추정 확률

학습

Page 32: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

어절 확률 추정 모델 평가

W

injinji mmtEPEPpyCrossEntro

1,,2 ),(log)(

Model Cross entropy

Equation (1) 17.53

Equation (2) 19.45

Equation (3) 15.11

Equation (4) 14.99

Page 33: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

33

CAP-TM 적용⊙ “ 시기를”에 IntraCP 와 범주 가중치를 적용

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

시기를

시기+를

시+기+를

시다+기+를

NN+PCO

NN+ETN+PCO

VA+ETN+PCO

나는 잘 수 있었다

1.39e-005

맞출

3.19e-008

6.83e-008

시+기+를

NNBU+ETN+PCO

2.97e-008

(1.58e-04

(0.004

를(0.015

NN

0.77)

ETN

1.00)

PCO

1.00)^ ^ ^X X

6.83e-008=

시(1.79e-05

(0.004

(0.015

VA

1.00)

ETN

0.38)

PCO

1.00)^ ^ ^X X

3.19e-008=

시기(9.34e-05

(0.015

NN

0.95)

PCO

0.56)^ ^X

1.39e-005=

1 / Tw = 1 / 33,643,884

모델 적용

Page 34: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

HMM using the estimated word probability

⊙기존 HMM 과 같으나 단어의 확률을 추정 확률로 사용하는 것만 다름

n

iiiii

wt

nnnwt

nnwt

wtwtPwtwP

wtPwtwPwwtP

n

nn

11

11111

)|()|(maxarg

)()|(maxarg)|(maxarg

1

11

)(

*),(

)(

),()|( y

ly

y

lyyl

wtC

WwwtEP

wtP

wwtPwtwP

)(

),(

)(

),()|(

x

yx

x

yxxy

wtC

wtwtC

wtP

wtwtPwtwtP

Eq(5)

Page 35: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

Smoothing

⊙ Good-Turing Estimation

⊙ 각 통계 정보마다 모두 Good-Turing Esitmation 값을 구함

)(

)()1( 1*

r

r

NE

NErr

형태소 unigram 형태소 tag bigram 어절 tag unigram 어절 tag bigram

Page 36: Part-of-Speech Tagging Markov Model Tagger 를 중심으로

성능 평가

Model Precision

MHMM 94.21%

Model Estimation of word probability EWHMM Equation (5)Equation(1) 94.12% 95.57%

Equation (2) 93.09% 95.35%Equation (3) 94.73% 96.56%

Equation (4) 95.18% 96.75%Equation (1). Estimation of word probability based on HMM applied to inner-word morpheme string.Equation (2). Estimation of word probability assuming independence.Equation (3). Estimation of word probability using the weight of an MTL.Equation (4). Estimation of word probability using the weight of an mt.