15
1 台台台台台台台台台 台台台 - 台台台台台台台台台台 台台台 P92922002

台語文語料處理技術 第七章 - 漢語詞性自動標注技術

  • Upload
    cassie

  • View
    35

  • Download
    1

Embed Size (px)

DESCRIPTION

台語文語料處理技術 第七章 - 漢語詞性自動標注技術. 吳家慶 P92922002. 漢語詞性自動標注技術. 詞性標注的意義. 原意 : 在給定句子中判定每個詞的語法範疇,確定其詞性 並加以標注。. 更多層意義: 一、為更高層次的自然語言文本加工提供素材。 二、為語言學的研究,提供詳實的資訊。 三、從加工過的文本中獲取詞類及頻度的詞性標注知識。. 漢語詞性自動標注技術. 詞性標注的主要難點. 漢語缺乏詞態變化. 常用詞兼類嚴重. 研究者的主觀意見. 漢語詞性自動標注技術. 認識詞類劃分的目的、標準等存在的分歧. 詞類劃分目的---. 句法分析. - PowerPoint PPT Presentation

Citation preview

Page 1: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

1

台語文語料處理技術 第七章 -漢語詞性自動標注技術

吳家慶 P92922002

Page 2: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

2

漢語詞性自動標注技術詞性標注的意義

原意:在給定句子中判定每個詞的語法範疇,確定其詞性 並加以標注。更多層意義:

一、為更高層次的自然語言文本加工提供素材。

二、為語言學的研究,提供詳實的資訊。

三、從加工過的文本中獲取詞類及頻度的詞性標注知識。

Page 3: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

3

漢語詞性自動標注技術詞性標注的主要難點

漢語缺乏詞態變化

常用詞兼類嚴重

研究者的主觀意見

Page 4: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

4

漢語詞性自動標注技術認識詞類劃分的目的、標準等存在的分歧

詞類劃分目的--- 句法分析

理想詞類系統--- 基本符合語言事實

詞類劃分標準--- 依照語法功能

詞類劃分---目前基本上是根據詞的語法功能來劃分

處理兼類詞---脫離語法功能,加上意義標注。主觀的限制為違背語言事實,故增加了詞性標注困難。

Page 5: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

5

漢語詞性自動標注技術信息處理用現代漢語詞類及標記集

出處: 山西大學於八零年代提出,希望能適用於計算機 處理,以便進行理解、分析詞語,並進行與其他

語言間之自動翻譯。

Page 6: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

6

漢語詞性自動標注技術信息處理用現代漢語詞類及標記集

內容:

一、詞與分類體系基本架構

(一)基本詞類共十七大類,大類下依需要設各中類及小類。

(見下頁)

Page 7: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

7

漢語詞性自動標注技術信息處理用現代漢語詞類及標記集

序號   大類    中類       中類       小類

1    名詞( N ) 普通名詞( NG )

          專有名詞( NP )

                   人名( NPF ) 姓( NPFF )

名( NPSS )

地名( NPL )

組織名( NPU )

15 助詞( U ) 結構助詞( US ) 的( USDE )

地( USDI )

得( USDF )

所( USSU )

時態助詞( UT ) 了( UTL )

著( UTZ )

過( UTG )

語氣助詞( UY ) 用在句末( UYE )

同現語氣詞左部( UYL )

同現語氣詞右部( UYR )

Page 8: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

8

漢語詞性自動標注技術信息處理用現代漢語詞類及標記集(二)為滿足計算處理真實文本需要,除語言學出現之詞類意

義外,真實文本可能出現的成分也予考慮。非基本詞類1 、前接成分(前綴)( H)-阿、老、反、超、自。2、後接成分(後綴)( K)-子、頭、兒、性、學、論、界。3、語素( G)-柿、濟、語。4、非語素字( X)-葡、萄、琵、琶。5、成語( I)-海市蜃樓…

6、慣用語( L)-總而言之。7、簡稱略語( J)-專有名詞或常用語。

8 、其他( W)-標點符號、非數字符號。

Page 9: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

9

漢語詞性自動標注技術信息處理用現代漢語詞類及標記集

二、有關兼類詞問題的處理(一)單義兼類詞-同音同形詞在不同分布中同義。(二)多義詞類-同形同音詞在分布不同時辭義不同。

單義兼類詞與多義詞類都可看成是兼類詞。

詞類的活用現象不能看是兼類。

Page 10: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

10

漢語詞性自動標注技術語料庫詞類自動標注算法研究語料庫---存放在計算機裡的原始語料文本或是經加工後帶

有語言學信息標注的語料文本。語料庫詞類自動標注工作是語言信息處理之基礎。

其難處是---兼類詞的排除歧義。

國外--- TAAGGIT系統,正確率 77%。

CLAWS算法,正確率 97%。

VOLSUNGA算法,更趨實用。國內---漢語詞標注系統,採六種算法,其中 VOLSUNGA+RTP

正確率達 92%。

Page 11: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

11

漢語詞性自動標注技術漢語詞標注系統---利用 CLAWS計算同現概率矩陣建立非兼類詞典、兼類詞典

部分標記的同現機率矩陣 最佳路徑選取(概率乘積最大路徑)

NG RN USDE USDI UYE

NG 0.219388 0.005218 0.089402 0.000580 0.002203

RN 0.248314 0.006744 0.086450 0.000001 0.001839

USDE 0.591746 0.015143 0.000001 0.000001 0.003266

USDI 0.009434 0.009434 0.000001 0.000001 0.000001

UYE 0.006410 0.006410 0.000001 0.000001 0.000001

USDE

NG

YE

RN NG

USDE

UDEI

YE

各 地 的 餐廳

時間效率低

Page 12: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

12

漢語詞性自動標注技術漢語詞標注系統--- VOLSUNGA詞性標注算法對 CLAWS算法進行改進一、最佳路徑---對任一詞,從左至右,找出通往該詞的最佳路徑,直

至最後。

FC D

NG DC VH

NG QNI

衛星 內部 只 有

二、相對標注概率( RTP )---基於語料庫統計,以更定量方式得出每個詞 可能詞類的相對概率。

準確度提高,克服了 CLAWS的時間複雜性,使時間效率提升。

Page 13: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

13

漢語詞性自動標注技術基於規則的詞性標注方法人工集成,建造兼類詞的鑑別規則庫

對自動生成的兼類詞典進行人工處理

按兼類詞搭配關係建造的識別規則庫

按詞語結構獲取規則

機器學習的詞性標注方法

通過機器學習自動獲取規則

測試結果

Page 14: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

14

漢語詞性自動標注技術基於規則的詞性標注方法

機器學習的優勢

不需要大量的統計數據表

有助於理解並簡化系統開發

Page 15: 台語文語料處理技術 第七章 - 漢語詞性自動標注技術

15

漢語詞性自動標注技術1995 年韓國漢城環太平洋自然語言處理研討會

IBM

所有問題都可以用統計方法解決

BELL 實驗室

統計與直覺 --採集分析假設測試

Y.Wilks

統計 +直覺 <= 直覺