21
Term Extraction from Financial News Jian-Shiun 2008/10/31

Term Extraction from Financial News

  • Upload
    keilah

  • View
    24

  • Download
    0

Embed Size (px)

DESCRIPTION

Term Extraction from Financial News. Jian-Shiun 2008/10/31. Financial News -鉅亨網. Data Collection. Period : 2008/10/10 ~ 2008/10/30 Number of news : 1,987. Accumulated Grams. grams. docs. Metrics. Frequency Conditional Probability Mutual Information. Mutual Information. - PowerPoint PPT Presentation

Citation preview

Page 1: Term Extraction from Financial News

Term Extraction from Financial News

Jian-Shiun2008/10/31

Page 2: Term Extraction from Financial News

Financial News-鉅亨網

Page 3: Term Extraction from Financial News

Data Collection

• Period: 2008/10/10 ~ 2008/10/30• Number of news: 1,987

Date 10月 10日 10月 11日 10月 12日#(News

) 68 33 22

Date 10月 13日 10月 14日 10月 15日 10月 16日 10月 17日 10月 18日 10月 19日#(News

) 128 123 123 117 117 21 11

Date 10月 20日 10月 21日 10月 22日 10月 23日 10月 24日 10月 25日 10月 26日#(News

) 100 127 143 136 123 27 16

Date 10月 27日 10月 28日 10月 29日 10月 30日#(News

) 116 136 139 161

Page 4: Term Extraction from Financial News

Accumulated Grams

100 200 300 400 500 600 700 800 900 1000

uni-gram 1,938 2,321 2,527 2,652 2,791 2,912 2,983 3,057 3,108 3,160

bi-gram 19,946 37,293 50,028 60,104 70,960 79,591 87,093 96,530 102,869 109,149

tri-gram 29,452 63,552 91,277 115,442 142,302 164,140 184,619 210,237 229,163 247,862

1100 1200 1300 1400 1500 1600 1700 1800 1900 1987

uni-gram 3,255 3,290 3,325 3,356 3,391 3,407 3,440 3,470 3,488 3,524

bi-gram 117,457 122,627 127,808 132,430 138,037 142,735 147,518 151,811 155,557 159,641

tri-gram 271,626 287,964 304,838 319,936 338,505 354,617 371,327 386,000 399,706 414,205

Page 5: Term Extraction from Financial News

100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 1900 19870

50000

100000

150000

200000

250000

300000

350000

400000

450000

uni-grambi-gramtri-gram

gram

s

docs

Page 6: Term Extraction from Financial News

Metrics

• Frequency• Conditional Probability• Mutual Information

Page 7: Term Extraction from Financial News

Mutual Information

• If f(w) ≥ f(c1) f(c2)… f(cn), then Mi(w) ≥ 0

frequency :f(.)4.

corpus in wordstotal :N corpus, in characters total :N3.

...cccw word,Chinese :w2.

i character Chinese :c1.

wc

n21

i

)(...)()(

)()(log)(

212

nw

nc

cfcfcfN

wfNwMi

Page 8: Term Extraction from Financial News

uni-gram (first 60 by freq)

的 30,299 跌 7,766 將 5,794 指 4,644

國 13,327 一 7,713 以 5,790 公 4,502

股 11,495 不 7,639 價 5,715 對 4,474

元 11,115 期 7,490 來 5,689 前 4,468

金 10,728 有 7,475 場 5,641 濟 4,442

大 10,251 日 7,383 成 5,618 長 4,442

年 9,645 出 7,176 億 5,544 外 4,283

美 9,608 上 7,104 利 5,208 也 4,253

中 9,418 業 7,067 產 5,119 機 4,236

在 9,283 經 6,764 於 5,094 高 4,235

市 9,082 會 6,701 融 4,986 政 4,233

資 9,078 是 6,519 至 4,707 新 4,173

行 8,439 人 6,059 點 4,705 友 4,168

下 8,327 月 6,029 能 4,683 現 4,158

為 8,192 台 5,871 全 4,649 表 4,104

Page 9: Term Extraction from Financial News

bi-gram (first 30 by freq, MI>0)

name freq con_prob MI name freq con_prob MI

美元 4,713 0.490529 6.406662 朋友 1,976 1 6.906582

市場 4,552 0.501211 6.849678 指數 1,973 0.424849 6.42562

經濟 4,393 0.649468 7.192184 股市 1,961 0.170596 5.151806

金融 4,286 0.399515 6.66883 友善 1,958 0.46977 6.797983

銀行 3,678 0.907252 6.779051 列印 1,955 0.82005 7.278606

投資 3,264 0.822373 6.544172 善列 1,955 0.815943 7.253335

中國 2,957 0.313973 5.599834 寄給 1,955 0.982412 7.351686

表示 2,879 0.701511 7.091099 給朋 1,955 0.789899 7.356216

美國 2,765 0.287781 5.490978 可能 1,761 0.465381 6.277721

公司 2,601 0.577743 7.053162 鉅亨 1,676 0.972158 7.515891

全球 2,418 0.520112 6.942785 危機 1,674 0.929484 6.692645

億元 2,279 0.411075 5.673348 亨網 1,662 0.98227 7.319669

星期 2,081 0.900087 6.307378 價格 1,631 0.285389 6.301081

政府 2,008 0.474368 6.88924 成長 1585 0.282129 5.877102

億美 1,995 0.359849 5.61813 目前 1493 0.697012 6.396741

Page 10: Term Extraction from Financial News

bi-gram (first 30 by freq, MI<0)

name freq con_prob MI name freq con_prob MI

在的 86 0.009264247 -0.30311505 現的 74 0.017797017 -0.319879027

動的 79 0.026046818 -0.177662431 的工 74 0.002442325 -0.221649687

次的 79 0.046144858 -0.119322292 緩的 74 0.09355246 -0.171532545

發的 78 0.020155039 -0.231821101 的低 72 0.002376316 -0.327744122

的危 78 0.002574342 -0.141706373 的收 72 0.002376316 -0.351724866

的增 77 0.002541338 -0.198815122 的表 72 0.002376316 -0.357144669

弱的 76 0.11764706 -0.126314103 外的 71 0.016577166 -0.384809482

的業 76 0.002508334 -0.398333913 的水 71 0.002343312 -0.237766939

策的 76 0.0608 -0.154202058 洲的 70 0.045161292 -0.286500353

數的 75 0.01914242 -0.29042988 的交 70 0.002310307 -0.325909958

理的 75 0.03805175 -0.205910182 的比 70 0.002310307 -0.30830427

的上 75 0.002475329 -0.418870593 務的 69 0.03747963 -0.320380767

的支 75 0.002475329 -0.177557395 的前 69 0.002277303 -0.433729422

款的 74 0.04004329 -0.219766038 的年 69 0.002277303 -0.633989649

滑的 74 0.06303237 -0.189196631 同的 68 0.022516556 -0.393417555

Page 11: Term Extraction from Financial News

tri-gram (first 30 by freq , MI>0)

name freq con_prob MI name freq con_prob MI

億美元 1,985 0.994988 8.613974 綜合外 540 0.477454 8.291417

友善列 1,955 0.998468 10.14562 亨網記 519 0.312274 9.080575

善列印 1,955 1 10.48079 網記者 519 1 8.893784

寄給朋 1,955 1 10.6199 進一步 492 0.987952 7.744583

給朋友 1,955 1 10.19966 新台幣 470 0.983264 7.688322

鉅亨網 1,661 0.99105 10.58535 金融風 469 0.109426 7.134807

投資人 1,099 0.336703 8.220252 融風暴 451 0.96162 8.248606

分析師 823 0.783064 9.517464 國政府 430 0.970655 6.826259

金融危 784 0.182921 7.858421 球經濟 428 0.995349 7.319826

融危機 782 0.994911 8.52281 全球經 416 0.172043 7.257456

亨網編 684 0.411552 9.558808 房地產 412 0.98801 7.758851

年同期 683 0.925474 7.456906 星期三 411 0.197501 7.45102

網編譯 637 0.931287 9.818719 球金融 410 0.997567 6.852312

去年同 604 0.648765 7.756346 經濟衰 408 0.092875 7.441873

合外電 540 0.998152 7.968456 濟衰退 407 0.99511 8.286946

Page 12: Term Extraction from Financial News

tri-gram (first 30 by freq , MI<0)

name freq con_prob MI name freq con_prob MI

大的金 9 0.017647 -0.13611 上季的 7 0.083333 -0.18945

元的新 8 0.01487 -0.13632 上的資 7 0.043478 -0.35698

員國的 8 0.129032 -0.11884 下的金 7 0.058333 -0.44351

國外的 8 0.078431 -0.20799 不好的 7 0.179487 -0.11046

國的外 8 0.023669 -0.20799 佈的資 7 0.050725 -0.14754

年的資 8 0.014519 -0.24113 作出的 7 0.081395 -0.12249

新金的 8 0.062016 -0.12402 來的高 7 0.017284 -0.14836

日的一 8 0.056738 -0.13023 價的跌 7 0.067961 -0.27061

的股利 8 0.027586 -0.18042 元的成 7 0.013011 -0.37399

美股的 8 0.013889 -0.30952 元的淨 7 0.013011 -0.22086

股的投 8 0.033613 -0.14188 元的融 7 0.013011 -0.35447

股的跌 8 0.033613 -0.25687 前的股 7 0.025 -0.35017

行的國 8 0.017978 -0.32801 合資的 7 0.106061 -0.23711

金的投 8 0.046512 -0.11749 國的出 7 0.02071 -0.48523

一半的 7 0.090909 -0.10408 國的投 7 0.02071 -0.39115

Page 13: Term Extraction from Financial News

4-gram (first 30 by freq , MI>0)

name freq con_prob MI name freq con_prob MI

友善列印 1,955 1 9.449753369 金融市場 365 0.9918478 5.59406191

寄給朋友 1,955 1 9.535799641 較去年同 334 0.89066666 6.332250804

金融危機 780 0.99489796 7.174384007 經濟成長 303 0.98058254 5.84276071

鉅亨網編 684 0.41180012 8.743995053 個百分點 265 0.99250937 6.401472058

亨網編譯 637 0.9312866 8.905943877 綜合報導 262 1 6.676954475

去年同期 568 0.9403973 6.702150687 金融海嘯 232 1 5.71116255

綜合外電 540 1 7.45077657 國際金融 215 0.9907834 4.820205869

亨網記者 519 1 8.152106296 億美元的 206 0.10377834 3.874700795

鉅亨網記 519 0.31246236 8.286785696 新興市場 201 1 5.374160155

金融風暴 451 0.96162045 6.624159309 分析師預 190 0.23086269 6.389462293

全球經濟 414 0.9951923 6.491136776 國安基金 187 1 4.757197158

經濟衰退 406 0.99509805 6.918376189 稅後盈餘 186 0.9946524 6.751171815

全球金融 395 0.99747473 6.109327897 全球股市 181 0.80803573 4.707250878

金融機構 381 0.9921875 6.182148499 金融體系 181 0.9526316 5.285483188

世華財訊 371 1 7.80354835 網編譯郭 178 0.27943486 7.507967533

Page 14: Term Extraction from Financial News

5-gram (first 30 by freq , MI>0)

name freq con_prob MI name freq con_prob MI

鉅亨網編譯 637 0.9312866 8.486269031 不構成投資 128 1 4.21265921

鉅亨網記者 519 1 7.8314528 並不構成投 128 1 4.644288796

較去年同期 304 0.9101796 5.645209311 使用該資料 128 1 4.992089837

亨網編譯郭 178 0.27943486 6.97578401 對該資料或 128 1 4.788127422

網編譯郭照 177 0.994382 7.340031879 導致的結果 128 1 3.865973528

編譯郭照青 177 1 8.184252875 成投資建議 128 1 4.534797251

美元或每股 142 0.993007 3.969541692 或使用該資 128 1 4.930456594

球金融危機 140 1 4.511906591 所導致的結 128 0.97709924 3.815962392

亨網記者張 139 0.26782274 6.051816557 所載資料僅 128 1 5.22409313

亨網記者葉 139 0.26782274 6.197053127 擔任何責任 128 1 6.959226015

北綜合報導 136 1 5.537903694 文所載資料 128 1 5.207681956

台北綜合報 136 1 5.113182606 料僅供參考 128 1 6.798409165

亨網查淑妝 135 0.99264705 6.796741437 料或使用該 128 1 5.838016298

鉅亨網查淑 135 1 6.388808062 料所導致的 128 1 3.807971584

全球金融危 129 0.32658228 4.369669218 料與原文有 128 1 5.040828599

Page 15: Term Extraction from Financial News

Extreme Status Using MI

1. f(w) is very low, and MI is very high*2. f(w) is very low, and MI is very low3. f(w) is very high, and MI is very high*4. f(w) is very high, and MI is very low

frequency :f(.)4.

corpus in wordstotal :N corpus, in characters total :N3.

...cccw word,Chinese :w2.

i character Chinese :c1.

wc

n21

i

)(...)()(

)()(log)(

212

nw

nc

cfcfcfN

wfNwMi

Page 16: Term Extraction from Financial News

1. f(w) is very low, and MI is very high*

name freq con_prob MI name freq con_prob MI

乒乓 1 1 7.543177 猖獗 2 1 7.543177

凜冽 1 1 7.543177 疙瘩 1 1 7.543177

劈啪 1 1 7.543177 痌蛁 1 1 7.543177

叱吒 2 1 7.543177 秸稈 1 1 7.543177

吝嗇 1 1 7.543177 窟窿 1 1 7.543177

囧痌 1 1 7.543177 綢繆 2 1 7.543177

徬徨 1 1 7.543177 繙嵼 1 1 7.543177

忐忑 1 1 7.543177 葡萄 1 1 7.543177

慫恿 1 1 7.543177 蚰縑 1 1 7.543177

摃龜 2 1 7.543177 蛁隃 1 1 7.543177

敝屣 2 1 7.543177 蝴蝶 1 1 7.543177

朦朧 1 1 7.543177 蹧蹋 2 1 7.543177

柑橘 2 1 7.543177 躊躇 1 1 7.543177

欷噓 2 1 7.543177 邯鄲 2 1 7.543177

漣漪 1 1 7.543177 隃捰 1 1 7.543177

Page 17: Term Extraction from Financial News

2. f(w) is very low, and MI is very low

name freq con_prob MI name freq con_prob MI

將的 1 1.73E-04 -6.59625 的款 1 3.30E-05 -6.42922

以的 1 1.73E-04 -6.59609 原的 1 5.52E-04 -6.42751

的億 1 3.30E-05 -6.58623 更的 1 5.73E-04 -6.42459

的至 1 3.30E-05 -6.55214 亨的 1 5.91E-04 -6.4222

也的 1 2.35E-04 -6.5333 的險 1 3.30E-05 -6.41551

投的 1 2.52E-04 -6.5214 農的 1 7.96E-04 -6.4024

的及 1 3.30E-05 -6.48973 析的 1 9.38E-04 -6.39369

的司 1 3.30E-05 -6.4715 各的 1 9.72E-04 -6.39199

其的 1 3.97E-04 -6.45911 的造 1 3.30E-05 -6.38936

印的 1 4.32E-04 -6.44994 的界 1 3.30E-05 -6.38682

星的 1 4.33E-04 -6.44989 淨的 1 0.001134 -6.3852

的由 1 3.30E-05 -6.44048 的型 1 3.30E-05 -6.38502

就的 1 4.84E-04 -6.43897 推的 1 0.00116 -6.38428

的或 1 3.30E-05 -6.43482 的別 1 3.30E-05 -6.38266

的萬 1 3.30E-05 -6.43437 編的 1 0.001218 -6.38238

Page 18: Term Extraction from Financial News

3. f(w) is very high, and MI is very high*

name freq con_prob MI name freq con_prob MI

美元 4,713 0.490529 6.406662 朋友 1,976 1 6.906582

市場 4,552 0.501211 6.849678 指數 1,973 0.424849 6.42562

經濟 4,393 0.649468 7.192184 股市 1,961 0.170596 5.151806

金融 4,286 0.399515 6.66883 友善 1,958 0.46977 6.797983

銀行 3,678 0.907252 6.779051 列印 1,955 0.82005 7.278606

投資 3,264 0.822373 6.544172 善列 1,955 0.815943 7.253335

中國 2,957 0.313973 5.599834 寄給 1,955 0.982412 7.351686

表示 2,879 0.701511 7.091099 給朋 1,955 0.789899 7.356216

美國 2,765 0.287781 5.490978 可能 1,761 0.465381 6.277721

公司 2,601 0.577743 7.053162 鉅亨 1,676 0.972158 7.515891

全球 2,418 0.520112 6.942785 危機 1,674 0.929484 6.692645

億元 2,279 0.411075 5.673348 亨網 1,662 0.98227 7.319669

星期 2,081 0.900087 6.307378 價格 1,631 0.285389 6.301081

政府 2,008 0.474368 6.88924 成長 1585 0.282129 5.877102

億美 1,995 0.359849 5.61813 目前 1493 0.697012 6.396741

Page 19: Term Extraction from Financial News

4. f(w) is very high, and MI is very low

name freq con_prob MI name freq con_prob MI

將的 1 1.73E-04 -6.59625 的款 1 3.30E-05 -6.42922

以的 1 1.73E-04 -6.59609 原的 1 5.52E-04 -6.42751

的億 1 3.30E-05 -6.58623 更的 1 5.73E-04 -6.42459

的至 1 3.30E-05 -6.55214 亨的 1 5.91E-04 -6.4222

也的 1 2.35E-04 -6.5333 的險 1 3.30E-05 -6.41551

投的 1 2.52E-04 -6.5214 農的 1 7.96E-04 -6.4024

的及 1 3.30E-05 -6.48973 析的 1 9.38E-04 -6.39369

的司 1 3.30E-05 -6.4715 各的 1 9.72E-04 -6.39199

其的 1 3.97E-04 -6.45911 的造 1 3.30E-05 -6.38936

印的 1 4.32E-04 -6.44994 的界 1 3.30E-05 -6.38682

星的 1 4.33E-04 -6.44989 淨的 1 0.001134 -6.3852

的由 1 3.30E-05 -6.44048 的型 1 3.30E-05 -6.38502

就的 1 4.84E-04 -6.43897 推的 1 0.00116 -6.38428

的或 1 3.30E-05 -6.43482 的別 1 3.30E-05 -6.38266

的萬 1 3.30E-05 -6.43437 編的 1 0.001218 -6.38238

Page 20: Term Extraction from Financial News

Further Work

• PAT-Tree• Pattern Filter• Cross Validate with CKIP

Page 21: Term Extraction from Financial News

Reference

• 劉開瑛 (2000),中文文本自動分詞和標註,北京:商務印書館。