41
談談談談談談談談談談談 談談談談談談談談談談 談談 談 談談談談 談談談談談談 {ryu-i,take}@cl.cs.titech.ac.jp 1 SigNL-193-11: 29 September 2009

談話の顕現性を考慮した 重要語抽出とその応用

Embed Size (px)

DESCRIPTION

飯田 龍 徳永健伸 東京工業大学 { ryu-i,take }@ cl.cs.titech.ac.jp. 談話の顕現性を考慮した 重要語抽出とその応用. SigNL-193-11: 29 September 2009. はじめに. 談話の顕現性を考慮した 語の重要度 文章中のある文脈で出現する語が文章の主題から見てどのくらい重要であるか 要約・情報抽出などの応用分野で重要 e.g. Web 検索 ( クエリ : ステロイド ). 主題として導入されている例. - PowerPoint PPT Presentation

Citation preview

Page 1: 談話の顕現性を考慮した 重要語抽出とその応用

談話の顕現性を考慮した重要語抽出とその応用

飯田 龍 徳永健伸東京工業大学{ryu-i,take}@cl.cs.titech.ac.jp

1

SigNL-193-11: 29 September 2009

Page 2: 談話の顕現性を考慮した 重要語抽出とその応用

はじめに 談話の顕現性を考慮した語の重要度

文章中のある文脈で出現する語が文章の主題から見てどのくらい重要であるか

要約・情報抽出などの応用分野で重要 e.g. Web 検索 ( クエリ : ステロイド )

2

脳の病気にもステロイドみたいなアグレッシブな特効薬があればいいのに~

アトピー性皮膚炎の治療に用いられるステロイドは、副作用が強く、使用時には必ず医師の指示に従い、正しく使用することが大切です

主題として導入されている例

直接は関係が無いがキーワードが含まれるため検索される例

Page 3: 談話の顕現性を考慮した 重要語抽出とその応用

典型的な語の重要度 文章中に出現する語の重要度は典型的に

は tf-idf もしくはその亜種を用いて計算される tf-idf: 該当文章に出現する回数とその語の逆

出現頻度の積 問題点

日本語のような主題が頻繁に省略される言語の場合,主題となる語に高い重要度を付与できない可能性がある

3

Page 4: 談話の顕現性を考慮した 重要語抽出とその応用

本研究のねらい Iida et al. (2009) で導入した顕現性の観

点に基づく語のランキングの情報を重要度として採用 後方文脈でどの語が省略されるかを予測しな

がら語をランキングする tf-idf で捉えられない語の重要度を求めること

が可能

要約を例にこの重要度の有効性を調査

4

Page 5: 談話の顕現性を考慮した 重要語抽出とその応用

目次1. 研究背景と本研究のねらい2. 談話の顕現性を考慮した重要語

ランキング (Iida et al. 2009)

3. 要約への応用4. 評価実験5. まとめと今後の課題

5

Page 6: 談話の顕現性を考慮した 重要語抽出とその応用

顕現性を考慮した重要語ランキングのアイデア(Iida et al. 2009)

顕現性の高い語は省略されやすい ゼロ照応の現象が起こっている場合に は

先行詞はその文脈において顕現性が高い

タグ付与されたゼロ照応関係を利用してある状況における顕現性の高さを学習 静的モデル : 文章全体から学習 動的モデル : 文章の各文から学習

6

太郎 1 は 公園を 散歩していました.(φ1 ガ ) 次郎 2 を 噴水の前で 見つけました.(φ1 ガ ) (φ2 ニ ) 昨日の試合の結果を 聞きました.

Page 7: 談話の顕現性を考慮した 重要語抽出とその応用

静的モデル 顕現性の高い語を 1 位,それ以外を 2 位と

した半順序関係を訓練事例とし, RankingSVM (Joachims, 2002) を用いて全順序を出力するランカーを作成

訓練 : 1 事例 1 記事 1st : 一度でも文間の先行詞としてゼロ代名詞か

ら指される表現 ( 候補は文節単位に抽出 ) 省略される可能性あり 顕現性が高い

2nd : それ以外7

Page 8: 談話の顕現性を考慮した 重要語抽出とその応用

訓練事例の例

1st : 太郎 1 ,次郎 2 2nd : 公園,噴水,前,昨日,試合,結果

8

太郎 1 は 公園を 散歩していました.(φ1 ガ ) 次郎 2 を 噴水の前で 見つけました.(φ1 ガ ) (φ2 ニ ) 昨日の試合の結果を 聞きました.

Page 9: 談話の顕現性を考慮した 重要語抽出とその応用

動的モデル 文章の最初からある文まで見たときの

顕現性の高さを求める

9

太郎 1 が 公園を 散歩していました.次郎 2 を 噴水の前で 見つけました.昨日の試合の結果 3 を 聞きました.あまりよくなかったようです.

1st: 太郎 1 2nd: 結果 3 3rd: 次郎 2 …

ranker

Page 10: 談話の顕現性を考慮した 重要語抽出とその応用

動的モデル 文章の最初からある文まで見たときの

顕現性の高さを求める 前文脈で顕現性の高い N 語をキャッシュに保持

しておき,現行の文に出現している語と比較

10

太郎 1 が 公園を 散歩していました.次郎 2 を 噴水の前で 見つけました.昨日の試合の結果 3 を 聞きました.あまりよくなかったようです.

太郎 1 公園

太郎 1 次郎2

キャッシュ(size=2)

1st: 太郎 1 2nd: 結果 3 3rd: 次郎 2 …

ranker

Page 11: 談話の顕現性を考慮した 重要語抽出とその応用

動的検出モデル : 訓練事例作成 静的モデルと同様に RankingSVM で順序

学習を行う

談話の各文で訓練事例集合を作成 1st : 文内もしくは前方文脈に出現する語のうち,後方文脈のゼロ代名詞と照応関係になるもの

2nd: それ以外

11

Page 12: 談話の顕現性を考慮した 重要語抽出とその応用

訓練事例作成の例

12

太郎 1 が 公園を 散歩していました.(φ1 ガ ) 次郎 2 を 噴水の前で 見つけました.(φ1 ガ ) (φ2 ニ ) 昨日の試合の結果 3 を 聞きました.(φ3 ガ ) あまりよくなかったようです.

太郎 1

1st

公園

2nd

Page 13: 談話の顕現性を考慮した 重要語抽出とその応用

訓練事例作成の例

13

太郎 1 が 公園を 散歩していました.(φ1 ガ ) 次郎 2 を 噴水の前で 見つけました.(φ1 ガ ) (φ2 ニ ) 昨日の試合の結果 3 を 聞きました.(φ3 ガ ) あまりよくなかったようです.

太郎 1 次郎 2

1st

噴水 前

2nd

Page 14: 談話の顕現性を考慮した 重要語抽出とその応用

訓練事例作成の例

14

太郎 1 が 公園を 散歩していました.(φ1 ガ ) 次郎 2 を 噴水の前で 見つけました.(φ1 ガ ) (φ2 ニ ) 昨日の試合の結果 3 を 聞きました.(φ3 ガ ) あまりよくなかったようです.

結果 3

1st

太郎 1 次郎 2昨日 試合

2nd

Page 15: 談話の顕現性を考慮した 重要語抽出とその応用

動的検出モデル : 解析 1 つ前のリストと現在の文内の候補から新たにリストを更新

キャッシュのサイズは固定

15

太郎 1 が 公園を 散歩していました.(φ1 ガ ) 次郎 2 を 噴水の前で 見つけました.(φ1 ガ ) (φ2 ニ ) 昨日の試合の結果 3 を 聞きました.(φ3 ガ ) あまりよくなかったようです.

太郎 1 公園キャッシュ (size =2)

ranker

1st: 太郎 1 2nd 次郎 2 …

Page 16: 談話の顕現性を考慮した 重要語抽出とその応用

順位学習に利用する素性 両方のモデルで利用可能な素性

品詞 テキストの最初の文に出現 格助詞 (e.g. 主題“は” , 主語“が” , etc.) 文の最後の文節に係る

動的モデルのみで利用可能な素性 現在の文から候補までに出現した接続表現 キャッシュの中に保持されているか否か 候補までの距離 ( 文単位 )

16

引用の中かどうか

Page 17: 談話の顕現性を考慮した 重要語抽出とその応用

顕現性の高い語の検出例 ( 静的モデル ) n=5

ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。ロシア側は 首都制圧の 最終段階に 入ったと みられる。グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

17

Page 18: 談話の顕現性を考慮した 重要語抽出とその応用

顕現性の高い語の検出例 ( 動的モデル ) n=5

18

ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。ロシア側は 首都制圧の 最終段階に 入ったと みられる。グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

Page 19: 談話の顕現性を考慮した 重要語抽出とその応用

顕現性の高い語の検出例 ( 動的モデル ) n=5

19

ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。ロシア側は 首都制圧の 最終段階に 入ったと みられる。グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

Page 20: 談話の顕現性を考慮した 重要語抽出とその応用

顕現性の高い語の検出例 ( 動的モデル ) n=5

20

ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。ロシア側は 首都制圧の 最終段階に 入ったと みられる。グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

Page 21: 談話の顕現性を考慮した 重要語抽出とその応用

顕現性の高い語の検出例 ( 動的モデル ) n=5

21

ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。ロシア側は 首都制圧の 最終段階に 入ったと みられる。グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

Page 22: 談話の顕現性を考慮した 重要語抽出とその応用

顕現性の高い語の検出例 ( 動的モデル ) n=5

22

ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。ロシア側は 首都制圧の 最終段階に 入ったと みられる。グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

Page 23: 談話の顕現性を考慮した 重要語抽出とその応用

顕現性の高い語の検出例 ( 動的モデル ) n=5

23

ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。ロシア側は 首都制圧の 最終段階に 入ったと みられる。グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

Page 24: 談話の顕現性を考慮した 重要語抽出とその応用

自動要約への応用 Iida et al. (2009) の顕現性に基づく手法

ではランキングの順位を出力する 要約のような応用処理では語の重要度を

求める必要がある

静的モデルと動的モデルの出力する順位をもとに重要度をヒューリスティックに求める

24

Page 25: 談話の顕現性を考慮した 重要語抽出とその応用

各モデルの重要度の計算 静的モデル

順位が低いほど重要度が高い

動的モデル

順位の逆数の総和が大きいほど重要度が高い

25

iiw rank

1)(scores

j ji

iw rank

1)(scored rankji : 文 Sj における wi の順位

Page 26: 談話の顕現性を考慮した 重要語抽出とその応用

目次1. 研究背景と本研究のねらい2. 談話の顕現性を考慮した重要語

ランキング (Iida et al. 2009)

3. 要約への応用4. 評価実験5. まとめと今後の課題

26

Page 27: 談話の顕現性を考慮した 重要語抽出とその応用

評価実験 Text Summarization Challenge 2 (TSC2) の評価データを利用した評価実験

提案する重要度が有効かを調査するため自動要約の問題を例に予備実験を行った 重要文抽出に関する評価 重要箇所抽出に関する評価

27

Page 28: 談話の顕現性を考慮した 重要語抽出とその応用

重要文抽出 文章の重要箇所を文単位で抽出

例 )30% の重要文

28

太平洋戦争末期、フィリピン・ダバオ市で日本人の父親と生き別れ、父親の出身地である長野県上伊那郡飯島町に国籍回復を求めていたフィリピン残留孤児、竹沢大助さん(63)=フィリピン名、ドミナドル・ランバヤン=に対し、飯島町は三日、戸籍への書き込み作業を開始することを明らかにした。 | 竹沢さんは十日、同町で戸籍謄本を手にする。 | 生き別れから五十年余。“日本人”に戻ることのできた来日中の竹沢さんは喜びをかみしめた。 | 竹沢さんの亡父・水津八さんは麻栽培のためダバオ市に渡り、一九二三年にフィリピン人女性と結婚。 | 竹沢さんは二男。戦争が始まって父は召集され、竹沢さん自身も四四年に軍需工場に徴用された。 | 終戦後は父親は強制送還され、そのまま生き別れとなった。 |反日感情の中、日本人であることを隠し続けたが、十八年ほど前から日本にいる親類と行き来を始めた。 | ところが、戸籍には三歳上の兄しか記載されていないことが判明。 | 三年前から町に国籍回復を求めていた。決め手になったのは、フィリピン政府が戦争で消失したことを認め、再発行した両親の婚姻証明書や本人の出生届だった。 | 昨年五月、同町にこれらの書類を提出。 | 今年六月十二日に日本を訪れ、同町の回答を待ち、滞在し続けていた。 | 竹沢さんは「胸がいっぱいでまだ信じられない。 | 父の墓前に早く報告したい。これからは同じ境遇の孤児たちを通訳などで手助けしたい」と、りゅうちょうな日本語で話した。

Page 29: 談話の顕現性を考慮した 重要語抽出とその応用

重要文抽出の実験設定 静的 / 動的モデルの順序学習

NAIST テキストコーパス ( 飯田ら , 2007) を利用 文間ゼロ照応 699 事例から訓練事例を作成

実験データ TSC2 の dryrun , formalrun 合わせた 180

記事を利用 要約率 : 10%, 30%, 50% それぞれの正答率で

評価 比較方法

語の重要度のみで重要文を抽出 ( 教師無し )29

)( )score()(importance ijj

ji SwwS

Page 30: 談話の顕現性を考慮した 重要語抽出とその応用

重要文抽出の実験設定 (Cont’d) 比較手法

Lead 法 tf-idf

静的モデル,動的モデル,静的モデル -idf ,動的モデル -idf

30

dwd

D

w

ww

ijk ik

ijij

:

log)(score idf-tf

dwd

Dww

ij

ii

:log)(score)(score s}{d,idf-s}{d,

Page 31: 談話の顕現性を考慮した 重要語抽出とその応用

重要文抽出の実験結果

手法 要約率 10% 30% 50%

Lead 法 0.260 0.412 0.553

tf 0.279 0.428 0.616tf-idf 0.277 0.440 0.609

静的モデル 0.258 0.383 0.570

静的モデル -idf 0.299 0.380 0.570

動的モデル 0.328 0.432 0.585

動的モデル -idf 0.316 0.432 0.590

31

教師無し手法の結果

Page 32: 談話の顕現性を考慮した 重要語抽出とその応用

重要文抽出 (教師有り手法 ) 素性 : 平尾 (2002) を参考に

文の出現位置,文の長さ,文に出現する接続表現や助詞,固有名が出現するか否か

tf-idf / 静的モデル -idf / 動的モデル -idf の値

学習・解析 重要文として抽出する文を 1 位,それ以外を

2 位として RankingSVM で順序学習 解析時は各要約率を満たすように上位 N 文を選択する

32

Page 33: 談話の顕現性を考慮した 重要語抽出とその応用

重要文抽出の実験結果 (Cont’d)

33

10% 30% 50%

ベースライン 0.320 0.434 0.604

+ tf-idf 0.334 0.463

0.626

+ 静的モデル -idf 0.341

0.430 0.607

+ 動的モデル -idf 0.330 0.429 0.601

+ tf-idf + 静的モデル-idf

0.331 0.460 0.624

+ tf-idf + 動的モデル-idf

0.330 0.460 0.624

教師有り手法の結果

Page 34: 談話の顕現性を考慮した 重要語抽出とその応用

重要文抽出についてのまとめ 語の重要度のみで重要文を抽出する 場合

要約率が高い (10%) ときには,動的モデルを利用した重要度が tf-idf より良い結果を得た

他の情報も素性として利用した教師有り手法で重要文を抽出する場合 要約率が高い (10%) ときには,静的モデルが

有効に役立つということがわかった

34

Page 35: 談話の顕現性を考慮した 重要語抽出とその応用

重要箇所抽出

35

結核予防ワクチンであるBCGに、日本人とタイ人に特徴的なエイズ・ウイルス(HIV)の遺伝子の一部を組み込んだエイズワクチンを、国立予防衛生研究所と味の素中央研究所のグループが開発、マウス実験などで免疫力を高める効果を確認した。近く国内で初めて、サルを使った感染予防実験を開始する。アジアを中心に広く途上国で使える可能性がある。予研エイズ治療室の本多三男室長らはHIVの「急所」が外被たんぱくのV3ループ部分らしいという最近の米国の研究成果を応用。日本人感染者に共通するV3ループ部分のHIV遺伝子配列を決定し、タイ人感染者に特徴的なHIV遺伝子配列を使った組み換えBCGも作製した。ワクチンでエイズ感染を防ぐには、HIVに感染した細胞を見つけて異物として排除するTリンパ球と、HIVそのものを攻撃する抗体を増やさなければならない。マウスとモルモット各五匹で免疫効果を別々に実験したところ、マウス全例でTリンパ球の活性が高まり、モルモットでは二匹で抗体が大量に増えたことを確認。予研グループは「有望な結果が得られた」と判断した。感染防止力を調べるサルの実験は、予研霊長類センター(茨城県つくば市)で一月から実施する予定だ。新ワクチンはウイルスそのものではないため、発病する危険はないとされ、主体となるBCGも安全性が確立されている。新生児にも接種でき、エイズ母子感染の防止に役立つという。山崎修道・予研所長は「アジアを対象にしたワクチンを一日も早く実用化したい」と話している。

結核予防ワクチンであるBCGに、HIVの遺伝子の一部を組み込んだエイズワクチンを、開発、免疫力を高める効果を確認した。広く途上国で使える可能性がある。HIVの「急所」が外被たんぱくのV3ループ部分らしいという研究成果を応用。エイズ母子感染の防止に役立つという。

20% の要約率で抜粋

Page 36: 談話の顕現性を考慮した 重要語抽出とその応用

重要箇所抽出への貢献度の調査 評価方法

重要度の尺度に基づき上位 N 語を抽出した際に重要箇所に含まれる名詞をどの程度包含できるかを調査

N の値を動かして評価する 比較する重要度

tf-idf ,静的モデル -idf ,動的モデル -idf

36

Page 37: 談話の顕現性を考慮した 重要語抽出とその応用

重要箇所抽出に関する実験結果

37

要約率 : 20%

あtf-idf

静的モデル -idf動的モデル -idf

文章中に頻出していて重要である語は捉えられている

tf-idf で捉えられない重要語を上位にランク付けできている

Page 38: 談話の顕現性を考慮した 重要語抽出とその応用

重要箇所抽出に関する実験結果

38

要約率 : 40%

あtf-idf

静的モデル -idf動的モデル -idf

Page 39: 談話の顕現性を考慮した 重要語抽出とその応用

重要箇所抽出の具体例

39

一九九二年度の高校中退者数が前年から一割以上減少し、調査開始以来最低を記録したことが十八日、文部省のまとめで分かった。在籍者に対する中退者の比率(中退率)も一・九%と初めて二%を切った。生徒減少期に入り、学校に「簡単に中退させるわけにはいかない」という意識が浸透した結果とみられる。調査対象は全国の公私立約五千五百校。中退者の総数は十万一千百九十四人で前年より一万一千七百三十九人(一〇・四%)減少した。中退率も〇・二ポイント下がって一・九%となり、率、数ともに八二年の調査開始以来最低となった。中退者数は生徒急増期と重なったため、調査開始以来増加傾向が続き、生徒数が二万人近く減少した九〇年度にも微増。最多の十二万三千五百人を記録した。中退率も私立は三%台から徐々に下降したが、公立を含む全体では二・一―二・〇%で一進一退していた。しかし、一部の高校で四十人学級=NEWSのことば参照=がスタートした九二年度は在籍者の減少幅(四%)を大幅に上回る減少率で、全国的な減少傾向が明らかになった。留年も約一〇%減少しており、文部省では「一単位でも落としたら留年というような厳しい進級認定を弾力化したり、中退問題の研究指定校による実験研究も進み、高校に中退問題への認識が深まった」と分析する。◇安易に退学させない 全国普通科高等学校長会の斎藤範里・生徒指導研究委員長(東京都立石神井高校長)の話 従来、点数、出席日数で機械的に生徒を切り捨てる傾向もあったが、ここ二、三年、進級規定を見直して、できるだけ面倒をみていこうという機運が出てきた。生徒数も減少し、保護者の意識も高まったので簡単に退学させられない。退学する場合も納得のうえで進路変更する例が増えているはずで、今後も中退は減ると思う。(この記事にはグラフ「高校中退者数と中退率の推移」があります)

tf-idf動 的 モ デ ル -idf

Page 40: 談話の顕現性を考慮した 重要語抽出とその応用

まとめ Iida et al. (2009) で提案した談話の顕現

性に基づく語の重要度が言語処理の応用分野に有効であるかを調査 自動要約を例に tf-idf と比較を行い,それぞ

れの重要度の尺度が相補的に役立つ可能性を示した

40

Page 41: 談話の顕現性を考慮した 重要語抽出とその応用

今後の課題 ヒューリスティックな重要度算出の改善

e.g. 自動要約の評価データも利用した教師有りの重要度算出

state-of-the-art な要約手法へ統合 Clarke & Lapata (2008) や 富田ら (2009)

などの制約充足問題としての要約手法への統合

談話構造に基づく重要度の指標と比較 RST (Macru, 2000) グラフ構造で表現された談話構造

(Wolf&Gibson, 2006)

41