38
中中中中 / 中中中中中 中中中中中中中 中中中中中中中中中中中 An Initial Study on Named Entity E xtraction from Chinese Text/Spoken Documents and Its Potential Applications 中中中中 中中中 中中 中中中中 中中中 中中 中中中 中中中

指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

  • Upload
    dinesh

  • View
    185

  • Download
    0

Embed Size (px)

DESCRIPTION

中文文字 / 語音文件中 類專有名詞擷取 及其可能應用之初步研究 An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications. 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟. 簡介. 本論文處理的 類專有名詞 類別包含人名、地名與組織名。 類專有名詞辨識 是希望在文件中標註出正確的類專有名詞 邊界 與 類別 。 語音文件中的類專有名詞辨識: 在有 語音辨識錯誤 的語音文件中找出類專有名詞出現處 - PowerPoint PPT Presentation

Citation preview

Page 1: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

中文文字 /語音文件中類專有名詞擷取及其可能應用之初步研究

An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications

指導教授:李琳山 博士共同指導:陳信希 博士研究生:劉禹吟

Page 2: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

簡介 本論文處理的類專有名

詞類別包含人名、地名與組織名。

類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。

語音文件中的類專有名詞辨識: 在有語音辨識錯誤的語

音文件中找出類專有名詞出現處

有助於語音摘要、語音問答、和語音對話系統的處理

類專有名詞類別

舉例

人名 (PER) 托尼 · 布萊爾 陳水扁、馬市長

地名 (LOC) 胡志明市、中山堂鶯歌、七堵赴美、中日關係

組織名 (ORG)

聯合國安理會台灣積體電路製造股份有限公司 中油、台塑

<ENAMEX TYPE=“LOCATION”> 美國 </ENAMEX> 國務卿<ENAMEX TYPE=“PERSON”> 鮑爾 </ENAMEX> 在<ENAMEX TYPE=“LOCATION”> 華府外籍記者中心 </ENAMEX> 表示 ...

Page 3: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

綱要

文字文件中類專有名詞辨識 語音文件中類專有名詞辨識 類專有名詞辨識衍生之應用 結論

Page 4: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

文字文件中的類專有名詞辨識

類別語言模型法派樹式規則法

Page 5: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

文字文件中類專有名詞辨識-類別語言模型法的概念 類別的種類:

人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別

• 若辭典中有 |V| 個詞彙,則總共的類別數有 |V|+3 個 基本概念:給定中文句子 S , W 為 S 的可切分詞串,

C 為 W 對應的類別,利用維特比搜尋找出滿足 P(C,W) 最大的最佳詞序列 W* 和 W* 對應的最佳類別序列C* * *

,

,

, arg max ( , )

arg max ( | ) ( )C W

C W

C W P C W

P W C P C

1 1 2 1 2 1 13

( ) ( ... ) ( | ) ( | , ){ ( | , )} ( / | , )m

m i i i m mi

P C P c c P c s P c c s P c c c P s c c

1 1

1

( | ) ( ... | ... ) ( | )m

m m i ii

P W C P w w c c P w c

類別前後文模型類別生成模型

Page 6: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

各種類別語言模型的機率估計

各種類別生成模型估計 人名類別 ( 字元二連語言模型 )

• 中國人名、外國人名分成兩種機率模型• 例:李小龍

巢狀類別 ( 類別二連語言模型 )• 地名、組織名• 例:宜蘭清水公園

一般詞彙類別• 每一個辭典中詞彙各自是一個類別• 生成機率皆為 1

類別前後文模型估計 由訓練語料庫訓練出三連類別語言模型機率 如:訓練語句:總統 PER 在 LOC 發表 聲明 …

• 可估計出: p(PER| 總統 ,<s>), p(LOC| 在 ,PER) …

( )P C

( | )i iP w c

P( 李小龍 |PER)≈p( 李 |<s>) p( 小 | 李 ) p( 龍 | 小 ) p(</s>

| 龍 )

P( 宜蘭清水公園 |LOC)≈ p(LOC|<s>) p(PER|LOC) p( 公園 |PER) p(</s>| 公

園 )p( 宜蘭 |LOC)*p( 清水 |PER)*p( 公園 | 公園 )

p( 尤其 | 尤其 ) = 1 、 p( 今天 | 今天 ) = 1

內部維特比搜尋找出內部最佳的類別及詞序列所對應的機率,以最高機率當成

其生成機率

Page 7: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類別語言模型法實作演算法

對於句子 S ,執行下列三個步驟: 建構詞網

• 紀錄各類別候選詞於詞網上,並記錄其生成機率• 一般詞彙、人名類別、地名類別、組織名類別

正向動態規劃 ( 維特比搜尋 )• 從句首至句尾對每一個候選詞計算到該位置為止,滿足 p(c,w) 最大的最佳路徑,紀錄最佳分數及回溯指標

反向回溯找出最佳的詞序列及對應的類別序列• 從句尾中有最高路徑分數的候選詞開始回溯至句首

Page 8: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

(3)反向回溯

(2) 正向維特比搜尋 c*,w* = max p(c*)*p(w*|c*)

(1) 建構詞網

演算法運作流程 處理句子:台北市中正紀念堂是為了紀念蔣中正先生 一般詞網示意圖

市 中 紀正 念 堂 是 為 了 紀北台 念 蔣 中 先 生正

3 4 65 7 8 9 10 11 1221 13 14 15 17 1816

台北 中正 紀念紀念堂

紀念 蔣中正 先生

中正 (p) 紀念 (p)

紀念堂 (p)

堂是 (p)

堂是為 (p)

紀念 (p) 蔣中 (p)

蔣中正 (p)

紀念蔣 (p)

台北 (l)

台北市 (l) 正紀念堂 (l)

中正紀念堂 (l)

市中正紀念堂 (l)

北市中正紀念堂 (l)

台北市中正紀念堂 (l)

<s> </s>

一般詞彙類別每個詞的生成機率皆為 1 。如: p( 紀念 | 紀念 )=1

計算人名類別的生成機率。如: p( 紀念 | 人名 )=

P( 紀 |<s>)*p( 念 | 紀 )*p(</s>|念 )

生成機率計算 :做內部維特比搜尋,得出最佳類別序列和最佳

機率

為了最佳類別路徑 (C*): LOC 是 為了 紀念 PER 先生最佳詞路徑 (W*) : 台北市中正紀念堂 是 為了 紀念 蔣中正 先生

P(C*,W* )= P(C*) * P(W*|C*) = P(LOC|<s>) * P( 是 |LOC,<s>) * P( 為了 | 是 ,LOC)*P( 紀念 | 為了 , 是 )*P(PER| 紀念 ,為 了 )*P(先生 |PER, 紀念 )*P(</s>|先生 ,PER)* P( 台北市中正紀念堂 | 地名 )*P( 是 | 是 )*P( 為了 | 為了 )P( 紀念 | 紀念 )*P(蔣中正 | 人名 )*P(先生 | 先生 )

Page 9: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

巢狀類別內部維特比搜尋 地名類別詞網

計算地名生成機率 P( 台北市中正紀念堂 |LOC)

3 4 65 7 8 9 10 11 1221 13 14 15 17 1816

台北 (l)

台北市 (l)

中正 (p)

紀念 (p)

紀念堂市 中 正北台

<s> </s>台北市中正紀念堂 (l)

由地名類別的語言模型查出可能出現在地名的詞彙,生成機率皆設為 1

各種類別的候選詞與生成機率

紀念堂 (p)

生成機率設為: P( 台北市中正紀念堂 |LOC) =P(C*)*P(W*|C*)=P(LOC|<s>)*P(PER|LOC)*P( 紀念堂 |PER)*P(</s>| 紀念堂 )*P( 台北市 |LOC)*P( 中正 |PER)*p( 紀念堂 | 紀念堂 )

Page 10: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類別語言模型法討論

類別語言模型法觀察:優點:

• 將斷詞與類專有名詞辨識合在同一個架構下,具有斷詞解歧異的功能

弱點:• 不易取得涵蓋領域夠廣且標註夠一致的訓練語料• 不容易回收沒有關鍵詞的地名、組織名 (九份、中廣 )

• 需要做內部維特比搜尋的字串將成指數成長• 一次處理一句,未用到整篇文章所包含的字串資訊

新的想法: 派樹式類專有名詞抽取 :

• 使用整篇文章所包含的樣式統計資訊及該樣式所有出現過的前後文幫助抽取類專有名詞

•金門縣長陳水在昨天呼籲兩岸 …,陳水在表示…,陳水在當初擔任 …

•臺北縣鶯歌鎮的陶瓷…,鶯歌有許多賣精美陶瓷的店家…,要到鶯歌遊玩的民眾可以搭乘…

•遊戲橘子集團高階人事異動 …,對於遊戲橘子跨足研發領域 …,遊戲橘子旗下的產品多數是以代理自韓國為主 …,遊戲橘子董事長劉柏園表示 …

縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多,使用單純類別語言模

型法較難偵測出。

Page 11: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

派樹式規則法-派樹式類專有名詞抽取概念

派樹:是一種很有效率的資料結構,在資訊檢索的領域使用很多 建構派樹:將處理的文章中每一個語意片段中的後部字串 (suff

ix string) 加入派樹中 正向派樹、反向派樹

優點:可以容易地獲得任意字串在整篇文章中的出現頻率及所有前後文 統計值 (左右相連詞變異度 ) 可判斷詞的邊界完整性 前後文字串可以用來判斷類別

s

Y Z

X1 X2

RC1 RC2 RC3 LC3LC2LC1

X: 陳水在 X1: 陳水在X2: 在水陳Y: 陳水Z: 在水

RC1: 陳水在說 * RC2: 陳水在強調 * RC3: 陳水在昨天呼籲 * LC1: 在水陳長縣門金 * LC2: 在水陳, * LC3: 在水陳

當 *

正向派樹可以容易地查詢字串的所有後文(RC)

反向派樹可以容易地查詢字串的所有前文(LC)

正向派樹: S= 今天在總統府Suffix strings:今天在總統府天在總統府在總統府總統府統府府

反向派樹: S= 府統總在天今Suffix strings:府統總在天今統總在天今總在天今在天今天今今

Page 12: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

派樹式規則法-派樹式類專有名詞抽取流程

對整篇文章建構正向及反向派樹

估計候選字串的邊界完整性

選擇證據分數最高分且超過門檻值的類別

檢驗字串內部及外部前後文資訊記錄各類別證據分數

抽取出的類專有名詞槽

( , )| | max

( )

( , )| | max

( )

c bLC

c bRC

f wLC t and t

f w

f wRC t and t

f w

•內部特徵:人名:人名機率是否大過門檻值地名、組織名:內部是否有關鍵詞(隊、鄉 )•外部特徵:人名:頭銜、發言動詞地名:重要前後文(抵達、飛往,地區、附近、市… )組織名:重要前後文( 大廠、廠商,公司… )•組合特徵:搭配內部及外部特徵對各類別記錄證據分數。 (詳述於論文中 )

處理派樹中出現頻率 >=tf 的字串

興農: AORG兄弟: AORG天母球場 :LOC

使用字串的前後文變異統計值做抽詞

繼續判斷候選字串可能的類專有名詞類別w= 馬英 β=九

f(w,β)/f(w) < tb?

如果 f(w,β)/f(w) >= tb,則 w= 馬英 可能不是一個邊界完整的詞

Page 13: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

一次輸入一個句子

派樹式規則法系統架構

單篇文件

斷詞與特性標註

人名辨識

巢狀類專有名詞辨識

類專有名詞的結合

單字詞類專有名詞辨識

派樹式類專有名詞抽取 抽取出的類專有名詞槽

快取類專有名詞槽

類專有名詞重要相關詞彙列表

輸出標註類專有名詞的句子

一般辭典

LOC →{[PER][APER][LOC][ALOC]}*[Content Word]*{LOC_KEY}ORG →{[PER][APER][LOC][ALOC][ORG][AORG]}*[Content Word]* {ORG_KEY}

組成結構及邊界判定 (STOP,LOC_LEFT_CONTEXT_KEY…)人名機率門檻值限制及邊界判定(STOP,TITLE,PER_SPOKEN_VERB…)

斷詞法:後向最大匹配與

特性標註

LOC →{LOC}*ORG →{ORG}*ORG->LOC ORG

聯合國安理會大陸上海…

中國的中、日本的日等。•中美關係,日韓代表,中、韓、日三方。 SCNE pattern→{SCNE}* {co-occur pattern} •美總統布希、日相、英首相布萊爾、美代表、以代表 SCNE title •美方、日方、美軍、伊軍、中方…•美重申、美發表、…

從派樹中查詢整篇文章中是否出現過澳洲、澳門、澳大利亞、澳國,若有,則澳字單獨出現時可能是地名,如:澳代表…

輸入整篇文章

Page 14: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

文字文件類專有名詞辨識實驗-測試語料 測試語料:

MUC-7(Message Understanding Conference-7) 的 MET-2(Multilingual Entity Task)測試語料,為大陸簡體字、火箭發射相關新聞共 100 則

類專有名詞統計量

評分方法:精確率、回收率 F-測量 =(2* 精確率 * 回收率 )/( 精確率 + 回收

率 )

類別 出現次數人名 174

地名 750

組織名 377

Page 15: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

文字文件類專有名詞辨識實驗結果

0

10

20

30

40

50

60

70

80

90

100

字典法 ( )類別語言模型法微軟 ( 1)類別語言模型法設定 ( 2)類別語言模型法設定 派樹式規則法

F-測量 人名

地名組織名

訓練語料:台灣雅虎網路新聞 8天份, 1萬多篇的自動標註新聞

訓練語料:大陸人民日報一個月的自動標註類專有名詞新聞

CED 電子辭典、已知各類專有名詞列表

CED 電子辭典派樹式類專有名詞抽取、類專有名詞暗示詞列表、

經驗法則

詞網中只加入結尾有關鍵詞的巢狀類別候選詞

句子中所有子字串都當成可能的巢狀類別候選詞並加入詞網中

•派樹式規則法表現最好•類別語言模型法會受到訓練語言模型優劣影響好壞•類別語言模型法只偵測結尾有關鍵詞的巢狀類別結果較好

Page 16: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

語音文件中的類專有名詞辨識

轉寫文件直接辨認結合關鍵詞辨識可信度分數門檻值限制結合時間與主題同質的類專有名詞匹配

Page 17: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

語音文件中類專有名詞辨識-測試語料 News98 2002年 9月份 200 則語音新聞經由時間

同質調適語料做語言模型調適的語音辨識結果音節辨識率較字元辨識率高許多

測試語料中類專有名詞統計量

字元辨識率 音節辨識率87.99% 93.42%

類別 出現次數人名 315

地名 457

組織名 500

Page 18: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

轉寫文件直接類專有名詞辨識實驗結果

57.06

7380.01

0

10

20

30

40

50

60

70

80

90

100

字典匹配法 類別語言模型法 派樹式規則法

F-測量

人名

地名

組織名

整體表現

類別語言模型法 :73.00派樹式規則法 :80.01

當成基礎結果

Page 19: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

轉寫文件直接類專有名詞辨識- 結果觀察 直接辨識的問題:

將辨識錯誤處當成對的類專有名詞• 例子:郭塘又缺少運動的婦女… (過糖 )• 導致精確率降低

辨識錯誤的類專有名詞無法回收• 例子:立委甚至會帶領… (沈智慧 )• 導致回收率降低

提出方法:結合關鍵詞辨識可信度分數門檻值

提出方法:結合時間與主題同質的類專有名詞匹配

PER:沈智慧ORG:立法院

`郭’字辨識錯誤…

“甚至會”是辨識錯誤…

Page 20: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

結合關鍵詞辨識可信度分數門檻值限制 語音辨識信心測量,以 CM(confidence measure)代

表 人名:

當中國人名姓氏或外國人名首字沒有重要前後文一同出現時 (頭銜、發言動詞 ) ,可信度必須大過門檻值 tkey ,才當成可能的候選詞

例: (過糖 )

地名、組織名: 當結尾關鍵詞 ( 市、廠、鄉 ) 可信度大過門檻值 tkey 時,才當成可能的候選詞如何設定關鍵詞可信度門檻值 (tkey)呢?先對可信度分數大小做觀察

結合關鍵詞可信度門檻值限制CM(郭 ) < tkey?則詞網中不加入此中國人名候選詞

塘 又 乏缺 運郭<s> </s>婦的動 女

郭塘缺乏 運動 婦女

直接辨認法 :PER 又 缺乏 運動 的 婦女

郭 塘 又 缺乏 運動 的婦女

Page 21: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

最佳輸出結果中每個詞可信度分數計算

詞圖 (word graph) 中節點辨識可信度分數計算: 詞圖中每一個節點的可信度分數,是將經過該節點的

所有路徑事後機率相加而得 最佳輸出結果 (1-best) 的每個詞的可信度分數計算:

在詞圖中將時間點有重疊且候選詞一樣的節點可信度分數相加得到

為了避免在詞圖中找不到對應最佳輸出的路徑,通常會建構較龐大的詞圖

詞圖大小與可信度的關係: 詞圖愈大保留的候選詞就愈多,每個候選詞的路徑機

率會被分散掉,使得可信度分數平均而言會變小。

Page 22: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

關鍵詞辨識可信度分數門檻值估計-可信度分數排序觀察 (200 則開發集 )

辨識輸出詞彙可信度排序對應之可信度值

0.01 0.040.08

0.15

0.25

0.37

0.50

0.98 1.00 1.00

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

( )可信度排序 由小至大

可信度值 辨識正確詞

辨識錯誤詞

全部的詞

•辨識正確詞的可信度有 10%只在0.01 以下• 可信度值偏小•設的可信度門檻值不宜太高

Page 23: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類別語言模型法- 結合關鍵詞辨識可信度分數門檻值實驗結果

73 73

76

80

65

70

75

80

85

90

0 0.001 0.01 0.1

可信度分數門檻值 tkey

精確率

人名

地名

組織名

整體表現

•辨識可信度門檻值設得愈高,表示要求的精確率愈高,然而回收率可能下降•加入可信度分數門檻值有可能得到較好的 F-測量 (73.00 →73.41)

•派樹式規則法在可信度門檻值 0.01時也可得到較好的 F-測量 (80.01 → 80.09)

73.00 72.5073.41 72.93

70

72

74

76

78

80

82

0 0.001 0.01 0.1

可信度分數門檻值 tkey

F測量

人名

地名

組織名

整體表現

7372

71

67

65

70

75

80

0 0.001 0.01 0.1

可信度分數門檻值 tkey

回收率

人名

地名

組織名

整體表現

If CM(W 關鍵詞 ) < tkey ,表示可能為辨識錯誤,不當成可能的類專有名詞候選詞繼續處理

Page 24: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

結合時間與主題同質的類專有名詞匹配(幫助回收率增加 )

時間同質新聞

語料庫

時間同質新聞語料庫及類專有名詞庫

時間與主題同質類專有名詞庫

單篇語音文件

錯誤修正後的類專有名詞標註

語音文件

發音相似度矩陣

發音辭典

文字文件類專有名詞辨識器

資訊檢索

結合類專有名詞匹配的類專有名詞辨識

•使用 TF*log(IDF) 計算出語音文件與各篇純文字文件的文件向量相似度•找出最相似的前 20篇且相似度大於 0.2 的文字文件

後端前處理

2002年 9月份雅虎奇摩網路新聞,可透過網路抓取

每篇文字新聞中的類專有名詞都已經自動抽取出來了。如:文件 No.1.PER 陳金鋒ORG 洛杉磯道奇隊 LOC 美國 …

美國總統布希間表示…不惜雖然堅稱…國務卿鮑爾在眾議院談伊拉克問題 …

文件 No.56相似度 0.6PER 鮑爾 3ORG 眾議院 2PER 布希 7 PER 布萊爾 1LOC 美國 3

文件 No.12相似度 0.5LOC 伊拉克 6PER 布希 3ORG 參議院 2…

美國 (loc) 總統布希 (per)間表示…布希 (per)雖然堅稱…國務卿鮑爾 (per) 在眾議院 (loc)談伊拉克 (loc) 問題 …

Page 25: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

結合時間與主題同質的類專有名詞匹配- 類別語言模型法

人名類別快取語言模型

percache

地名類別快取語言模型

loccache

組織名類別快取語言模型

orgcache

P( 鮑爾 |percache)=3/15P( 布希 |percache)=10/15 P(賓拉登 |percache)=2/15

P( 美國 |loccache)=3/7P(伊拉 |loccache)=4/7

P(眾議院 |orgcache)=2/4P(蓋達組織 |orgcache)= 2/4

文件 No.124相似度 0.6PER 鮑爾 3ORG 眾議院 2PER 布希 7 LOC 美國 3文件 No.124相似度 0.5LOC 伊拉克 4ORG 蓋達組織 2 PER 賓拉登 2PER 布希 3…

單篇語音文件時間與主題

同質類專有名詞庫

美國總統布希間表示…不惜雖然堅稱…國務卿鮑爾在眾議院談伊拉克問題 …

尋找可匹配處字元完全匹配

音節完全 /近似匹配

匹配到的候選詞做類別生成機率調適

( | , ) (1 ) ( | ) ( | )cache cache cache cacheP w c c P w c P w c

匹配處的處理

Page 26: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類別語言模型法-時間與主題同質的類專有名詞匹配

惜 雖 堅然 稱不<s> </s>

國 總 布統 希美<s> </s>示表間美國 總統 表示

美國 布希

布希間

P( 美國 |LOC)=(1- λcache)P( 美國 |loc) + λcache P( 美國 |loccach

e)P( 布希 |PER)=(1- λcache)P( 布希 |per) + λcacheP( 布希 |percach

e)

不惜 堅稱雖然布希

P( 布希 |percache)=10/15P( 美國 |loccache)=3/7

滿足音節完全 /近似匹配•音節相似度 >= tsyll_sim 以及• CM(不惜 ) < tcorrect

字元完全匹配

P( 布希 |PER)=(1- λcache)P( 布希 |per) + λcacheP( 布希 |percach

e)有助於回收率的提升與錯誤字元修正

syll_sim(不、布 )=2.0 syll_sim(惜、希 )=2.0

Page 27: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類別語言模型法結合字元完全匹配及類別生成機率調適實驗結果

75.47 75.57 75.74 75.74 75.87 75.9576.42 76.37 76.23 76.18 76.10

70

72

74

76

78

80

82

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

λ類專有名詞快取語言模型權重 cache

(%)

整體表現

整體精確率

整體回收率

F-整體 測量

73.00 F-基礎結果 測量

類別生成機率內插的結果比單純使用任何一種模型要來的好

(λcache= 0.6時最好 )回收率隨著 λcache提升

Page 28: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類別語言模型法結合關鍵詞可信度分數門檻值、字元完全匹配及類別生成機率調適實驗結果 (F-測量 )

72

73

74

75

76

77

78

79

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

λ類專有名詞快取語言模型權重 cache

F-(%

)整體測量

關鍵詞可信度分數門檻=0.1值

關鍵詞可信度分數門檻=0.01值

關鍵詞可信度分數門檻=0值

73.00 F-基礎結果 測量

78.42

77.03

76.42

希望精確率與回收率都能提升

關鍵詞可信度分數門檻值 :If CM(W 關鍵詞 ) < tkey, 表示可能為辨識錯誤,不當成可能的類專有名詞候選詞繼續處理

tkey

Page 29: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 (F-測量 )

72

73

74

75

76

77

78

79

80

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

字元修正信心分數門檻值 tcorrect

F-

(%)

整體表現

測量

匹配音節相似度門檻值1.8~2.0=

匹配音節相似度門檻值1.7=

匹配音節相似度門檻值1.6=

匹配音節相似度門檻值1.5=

73.00 F-基礎結果 測量

79.50

字元完全匹配最好的結果為 :λcache=0.6, tkey=0.1F-測量從 73.00→78.42放鬆匹配條件至音節近似匹配時,我們固定 λcache=0.6, tkey=0.1 ,研究字元修正信心分數門檻值 tcorrect 在不同設定下的結果

CM(不惜 ) < tcorrect

則加入”布希”至詞網tcorrect =0.6時,tsyll_sim=2.0時,

F-測量進步到 79.50

Page 30: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 ( 語音辨識率 )

87

87.2

87.4

87.6

87.8

88

88.2

88.4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

字元修正信心分數門檻值 tcorrect

(%)

語音辨識字元精確率

匹配音節相似度門檻值1.8~2.0=匹配音節相似度門檻值

1.7=匹配音節相似度門檻值

1.6=匹配音節相似度門檻值

1.5=

87.99 語音辨識率基礎結果

88.17

語音字元辨識率也從 87.99提升到 88.17

Page 31: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果觀察音節完全匹配時最好的設定下:類專有名詞 F測量 : 從 73.00 → 79.50 語音字元辨識率 : 從 87.99 → 88.17

Page 32: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

結合時間與主題同質的類專有名詞匹配- 派樹式規則法 非類別語言模型法的統計式解歧異,因此,以設定快取

語言模型的機率門檻值 (tcache) 作為匹配的限制惜 雖 堅然 稱不<s> </s>惜 雖 堅然 稱不<s> </s>

布希

根據匹配特徵限制:•音節相似度 >= tsyll_sim

•CM(不惜 ) < tcorrect

•P( 布希 |percache) > tcache

音節完全 /近似匹配

布希

最好的設定為:關鍵詞可信度門檻值 tkey = 0.01快取語言模型門檻值 tcache=0.2音節近似匹配 tsyll_sim=1.7字元修正信心分數門檻值 tcorrect=0.6

F-測量: 80.01 → 80.93語音字元辨識率: 87.99 → 88.16

( | )cache cacheP w c t

Page 33: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

語音文件中類專有名詞辨識最佳設定結果比較

結合關鍵詞可信度分數門檻值及時間與主題同質的類專有名詞匹配 關鍵詞可信度分數門檻值→提高精確率時間與主題同質的類專有名詞匹配→提高回收率 兩者結合使用可同時提高精確率與回收率 類別語言模型法:

• tkey = 0.1, λcache= 0.6, tsyll_sim = 2.0, tcorrect = 0.6時, F-測量 73.00→79.50

派樹式規則法:• tkey=0.01, tcache = 0.2, tsyll_sim = 1.7, tcorrect = 0.6時 ,

F-測量 80.01→80.93

Page 34: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類專有名詞辨識衍生之應用

自動建立類專有名詞索引之資訊檢索系統網際網路語音問答系統

Page 35: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類專有名詞辨識衍生之應用-自動建立類專有名詞索引之資訊檢索系統

幫助使用者瞭解新聞語料庫中重要的資訊,並提供使用者檢索的詞彙

Page 36: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

類專有名詞辨識衍生之應用-網際網路語音問答系統

問問題

Google 共檢索出 2750篇

檢索詞重寫(Query Reformulation)

將檢索出來的網頁摘要 (Snippet)做類專有名詞辨識 ( 選取前 N

篇 )

可能答案排序

可用語音合成方式唸出

最可能的答案

結合語音輸入、語音合成,以自然語言在網路上做問答,並以類專有名詞辨識淬取出重要的資訊,在未來是一個發展趨勢

Page 37: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

結論

文字文件中類專有名詞辨識 類別語言模型法:

• 在有優值語言模型的情形下,解歧異功能最好• 不容易處理無關鍵詞結尾的巢狀類別

派樹式規則法:• 可抽出許多無關鍵詞的類專有名詞• 在新聞領域測試語料中可以達到很好的效果

統計式的類別語言模型法及派樹式規則法各有優劣處 語音文件中類專有名詞辨識

結合關鍵詞可信度分數門檻值限制及時間與主題同質的類專有名詞匹配可以同時增加精確率與回收率, F-測量可以進步許多

做了類專有名詞辨識後的語音文件可以幫助瀏覽、建構索引、實作問答等系統,對於語音摘要也能帶來幫助

Page 38: 指導教授:李琳山 博士 共同指導:陳信希 博士 研究生:劉禹吟

謝謝各位