Upload
triveni-ishaan
View
71
Download
2
Embed Size (px)
DESCRIPTION
以 RSS 為格式提昇數位典藏系統檢索效能. 報告者:劉芸如 日期: 99/12/17. Query. A. C. 1. Directory Classify Module. RSS Publish/Subscribe Component. Access. Information Retrieve Component. 3. Respond. B. RSS Data Base. Keyword optimization Module. USER. 2. Keyword Generator. ID-Keyword Relation maker. - PowerPoint PPT Presentation
Citation preview
以 RSS為格式提昇數位典藏系統檢索效能
報告者:劉芸如日期: 99/12/17
1
RSSData BaseUSER
1
2
B
A
Information Retrieve
Component
Directory Classify Module
3
RSS Publish/Subscribe
Component
Query
Respond
Access
C
RSS Digital Archives Retrieve SystemHTTPClient
Keyword optimization Module
Keyword Generator
ID-Keyword Relation maker
MMSEG: A Word Identification System for Mandarin Chinese Text Based on
Two Variants of the Maximum Matching Algorithm
Chih-Hao Tsai 提出,它使用兩套演算法與四個模糊解析規則。
Simple maximum matching(簡單最大匹配 ) 首先搜索詞彙,看看 _C1_ 是一個字詞,然後搜索
_C1C2_ ,看它是否是兩個字詞的字,依此類推。直到組合出來的結果長度最長者,列入詞庫中。
Complex maximum matching(複雜最大匹配 ) 找到所有從當前位置開始的三個連續詞語的區塊,
總長度最大的區塊是最佳解。
3
例如:“眼看就要來了” ,從“眼”字開始,可能構成的三個連續詞的區塊有(注意每一個單字通常都可以是獨立的詞) 眼 看 就
眼 看 就要眼看 就 要眼看 就要 来眼看 就要 来了 <<< 最佳分割
優點: mmseg4j 詞庫採用 utf-8 編碼,而且可以自訂編碼。 可以替換詞庫,或自訂詞庫。
4
1. 詞語長度變化最小的原則( Smallest variance of word lengths ) EX :“研究生命起源”
研究 生命 起源 研究生 命 起源
這種方法選出“研究 生命 起源”這個最佳的分割,因為三個詞的長度都是 2 ,長度變化是 0 。
5
2. Largest sum of degree of morphemic freedom of one-character words 規則 通過各個單字在平時被使用的頻率資料,就可
以用於在不同的區塊中選出頻率最高的一個區塊。
Ex :“主要是因為” 主要 是 因為 <<< 最佳分割 主 要是 因為
由於單字“是”比單字“主”出現的頻率要高,因此可以選出“主要 是 因為”這個分割,通常這也就是最佳分割。
6
CKIP 跟 MMSEG 的差別 Ex: 這行文字是要被中文斷詞處理的文章,
可以從執行結果 CKIP
這 (Nep) 行 (Nf) 文字 (Na) 是 (SHI) 要 (D) 被 (P) 中文 (Na) 斷詞 (VA) 處理 (VC) 的(DE) 文章 (Na) , (COMMACATEGORY 可以(D) 從 (P) 執行 (VC) 結果 (Na)
MMSEG 這行 | 文字 | 是 | 要被 | 中文 | 斷 | 詞 | 處理 | 的 | 文
章 | 可以 | 從 | 執行 | 結果
7
方法 – CKIP 與 MMSEG Step 1 將標題與內容裡的文字,利用 CKIP
作斷詞。 Step 2 傳回的結果作兩者間的比對 ( 標題與
內容同時出現者抓為本文件的關鍵字 ) 。 例外 : 假設 SKIP 斷出的標題與內文,無法找出
相同的句子,則再與 MMSEG 所斷出的句子作比對。
Step 3 重複過多關鍵字時,取其一相同關鍵字,淘汰其餘重複的,並將文件的編號 (ID)的數值整合列入表中。
8
9結束
開始
取得斷詞結果
擷取詞句
判斷關鍵字
建立資料關聯詞庫表
與 MMSEG 所斷出的句子作兩者比對選出最佳組合,再與內容斷詞結果作比對,取兩邊出現相同
字詞,建立資料關聯詞庫表
說明 :CKIP- 比對標題與內容斷詞結果,取兩邊出現相同字
詞是 否
重複過多相同關鍵字
說明 : 取其一相同關鍵字,淘汰其餘重複的,並將文件的編號 (ID) 的
數值列入表中整合重複的關鍵字
產生資料關鍵詞庫表
是否
步驟一
步驟二
步驟三
之前版本
10
結束
開始
取得斷詞結果
判斷關鍵字
建立資料關聯詞庫表
說明 :CKIP- 比對標題與內容斷詞結果,取兩邊出現相同字
詞是 否
重複過多相同關鍵字
整合重複的關鍵字
產生資料關鍵詞庫表
是否
步驟一
步驟二
步驟三
修改版本
原文 標題
王建民填表選秀,突顯中職棒不公 內容
中華職棒年度選秀會,昨天下午 5 點截止報名,卻驚傳王建民已經填妥報名表,難道王建民要放棄美國職棒,回台發展嗎?王建民的經紀人證實,確有此事,不過他說,王建民這麼做,是要突顯中華職棒選秀制度的荒謬,因為連王建民這樣的投手,都得透過選秀才能加盟中華職棒,顯然制度有待檢討。
11
CKIP 斷詞 標題
王建民 (Nb) 填表 (VA) 選秀 (Na) , (COMMACATEGORY) 突顯 (VJ) 中 (Di) 職棒 (Na) 不公 (VH)
內文 中華 (Nc) 職棒 (Na) 年度 (Na) 選秀會 (Na) , (COMMACATEGORY 昨天 (Nd) 下午 (Nd) 5點 (Neu) 截止 (VH) 報名 (VA) , (COMMACATEGORY 卻 (D) 驚傳 (VE) 王建民 (Nb) 已經 (D) 填妥 (VC) 報名表 (Na) ,
(COMMACATEGORY 難道 (D) 王建民 (Nb) 要 (D) 放棄 (VC) 美國 (Nc) 職棒 (Na) ,
(COMMACATEGORY) 回 (VCL) 台 (Nc) 發展 (VC) 嗎 (T) ? (QUESTIONCATEGORY) 王建民 (Nb) 的 (DE) 經紀人 (Na) 證實 (VE) , (COMMACATEGORY) 確 (D) 有 (V_2) 此 (Nep) 事 (Na) , (COMMACATEGORY) 不過 (Cbb) 他 (Nh) 說 (VE) , (COMMACATEGORY) 王建民 (Nb) 這麼 (D) 做 (VC) , (COMMACATEGORY) 是 (SHI) 要 (D) 突顯 (VJ) 中華 (Nc) 職棒 (Na) 選秀 (Na) 制度 (Na) 的
(DE) 荒謬 (VH) , (COMMACATEGORY) 因為 (Cbb) 連 (Cbb) 王建民 (Nb) 這樣 (VH) 的 (DE) 投手 (Na) ,
(COMMACATEGORY) 都 (D) 得 (D) 透過 (P) 選秀 (Na) 才能 (Na) 加盟 (VC) 中華 (Nc) 職棒
(Na) , (COMMACATEGORY) 顯然 (D) 制度 (Na) 有待 (VK) 檢討 (VE) 。 (PERIODCATEGORY)
12
MMSEG 標題
王 | 建 | 民 | 填表 | 選 | 秀 | 突 | 顯 | 中 | 職 | 棒 | 不公
內容 中華 | 職 | 棒 | 年度 | 選 | 秀 | 會 | 昨天下午 |
5 | 點 | 截止 | 報名 | 卻 | 驚 | 傳 | 王 | 建 | 民 | 已經 | 填 | 妥 | 報名 | 表 | 難道 | 王 | 建 | 民 | 要 | 放棄 | 美國 | 職 | 棒 | 回 | 台 | 發展 | 嗎 | 王 | 建 | 民 | 的 | 經紀人 | 證實 | 確有 | 此事 | 不過 | 他說 | 王 | 建 | 民 | 這麼 | 做 | 是要 | 突 | 顯 | 中華 | 職 | 棒 | 選 | 秀 | 制度 | 的 | 荒謬 | 因為 | 連 | 王 | 建 | 民 | 這樣 | 的 | 投手 | 都得 | 透過 | 選 | 秀才 | 能 | 加盟 | 中華 | 職 | 棒 | 顯然 | 制度 | 有待 | 檢討
13