70
⾃動要約技術の研究動向 ⻄川 仁 @hitoshi_ni 2014/01/27 1

Automatic summarization

Embed Size (px)

Citation preview

Page 1: Automatic summarization

⾃動要約技術の研究動向

⻄川 仁@hitoshi_ni

2014/01/27 1

Page 2: Automatic summarization

本資料について

2014/01/27 2

• 以下の2つの講演における資料からなる– ⻄川仁. ⾃動要約技術の研究動向:これまでとこれから. 情報処

理学会第213回⾃然⾔語処理研究会. 2013/09/13– ⻄川仁. ⾃動要約における組み合わせ最適化. ⼈⼯知能学会第91

回⼈⼯知能基本問題研究会. 2013/11/29

Page 3: Automatic summarization

本資料の想定する読み⼿と狙い

2014/01/27 3

• 想定する読み⼿– ⾃然⾔語処理に関する基本的な知識がある– ⾃動要約については明るくないが,多少の関⼼がある

• 狙い– ⾃動要約のアプローチをご理解いただく– 知⾒の共有

Page 4: Automatic summarization

何が含まれないか

2014/01/27 4

• 過去の研究の網羅的な紹介– ⽐較的新しい話題を中⼼にお話する

• ⼿法の詳細(アルゴリズムなど)

Page 5: Automatic summarization

あらまし

2014/01/27 5

1. 導⼊– 定義– 分類– 要素技術

2. 今⽇の⾃動要約技術– 対象– ⽂選択・⽂短縮・⽂の順序付け

3. まとめ

Page 6: Automatic summarization

ばくっとした⾃動要約のお話

2014/01/27 6

国連安全保障理事会は20⽇、⻄アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介⼊を認める決議を全会⼀致で採択した。混迷のマリ情勢は新たな局⾯に⼊る。決議では、アフリカ国際マリ⽀援部隊(AFISMA)に対し「必要なあらゆる⼿段の⾏使」を認めた。派遣部隊はまずマリ軍兵⼠の教育や作戦を⽀援する。

⾃動要約の例国連安全保障理事会は20⽇、⻄アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介

⼊を認める決議を全会⼀致で採択した。周辺国で構成する⻄アフリカ諸国経済共同体(ECOWAS)による3300⼈規模の部隊派遣を承認。混迷のマリ情勢は新たな局⾯に⼊る。

決議では、アフリカ国際マリ⽀援部隊(AFISMA)に対し「必要なあらゆる⼿段の⾏使」を認めた。派遣部隊はまずマリ軍兵⼠の教育や作戦を⽀援する。派遣期間は1年。軍事⾏動の開始は来年秋以降になる⾒通し。

マリでは3⽉、⾸都バマコで反乱軍によるクーデターが発⽣。イスラム過激派が北部を制圧し、国⼟は事実上⼆分された。今⽉10⽇には政府軍兵⼠らがディアラ暫定政府⾸相の⾝柄を拘束。⾸相は翌11⽇に退陣を表明し、混乱が加速した。ロイター通信によると、ディアラ⾸相拘束はクーデターを主導したサノゴ⼤尉の指⽰。背景には⾸相とトラオレ暫定⼤統領らとの間の政治的対⽴があったとされ、トラオレ⼤統領は職務を継続している

Page 7: Automatic summarization

ばくっとした⾃動要約のお話

2014/01/27 7

• なんで計算機にそんなことをさせるのか?– みんな忙しいので⻑い⽂書なんざ読んでいられない(俗なとこ

ろでは、「今北産業」)– 厳ついところでは安全保障上の要請

• アラブ⼈が悪さしてないかアメリカ⼈は知りたい• アラビア語で書かれた新聞記事を機械翻訳、英語にして⾃動要約

(DARPA TIDES program)

機械に⽂書を⾃動的に要約させたい

Page 8: Automatic summarization

ばくっとした⾃動要約のお話

2014/01/27 8

• ⾃然⾔語処理技術(計算機で⾃然⾔語(⽇本語や英語)を扱う技術)の⼀種

• 機械翻訳などと同様にテキストを出⼒する技術– テキストを解析する技術と⼀線を画す(特に評価が⼤変)

⽣成側の⾃然⾔語処理技術

Page 9: Automatic summarization

⾃動要約の定義と応⽤

2014/01/27 9

• 情報のソースを受け取り、そこから内容を抽出し、もっとも重要な内容をユーザに、簡約した形で、かつ、ユーザやアプリケーションの要求に応じた形で提⽰すること(Mani01)

• 単⼀の、あるいは複数のニュース記事の要約• 情報検索システムや質問応答システムの出⼒部

要求に合わせて,情報ソースを要約

Page 10: Automatic summarization

技術

⾃動要約の構成要素

2014/01/27 10

3つの要素によって作成すべき/できる要約が決まる

⼊⼒⽂書集合

読者

要約

Page 11: Automatic summarization

技術

⾃動要約の構成要素

2014/01/27 11

3つの要素によって作成すべき/できる要約が決まる

⼊⼒⽂書集合

読者

要約

• 数(単⼀か複数か)• ジャンル(新聞,技術⽂献,

ブログ,ツイッター)• 書き⼿(⽞⼈,素⼈)• 主題

• 利⽤⽤途– 要約の⻑さ– ユーザーが選好する情報

(クエリ)の有無

• 計算資源(クロック数,ディスク)

• 利⽤できる技術とその精度– 形態素解析,係り受け解析,

述語項構造解析,共参照解析– 機械学習

Page 12: Automatic summarization

⾃動要約の構成要素

2014/01/27 12

読者(使途)による要求⽔準

⼊⼒⽂書の性質による

難しさ

技術

Page 13: Automatic summarization

⾃動要約の構成要素

2014/01/27 13

読者(使途)による要求⽔準

⼊⼒⽂書の性質による

難しさ

技術

現在の技術⽔準でできること

読み⼿の要求⽔準によって要約の難しさは変化

妙な⽂書だと要約が⼤変

Page 14: Automatic summarization

⾃動要約の構成要素

2014/01/27 14

読者(使途)による要求⽔準

⼊⼒⽂書の性質による

難しさ

技術

現在の技術⽔準でできること

読み⼿の要求⽔準によって要約の難しさは変化

妙な⽂書だと要約が⼤変

うまくつながるようにするのが⼤変

うまくつながるようにするのが⼤変

Page 15: Automatic summarization

⾃動要約の分類

2014/01/27 15

• 読み⼿に由来するもの1. 要約の使い⽅:指⽰的要約/報知的要約2. 必要な情報の指定:クエリ⾮依存要約/クエリ依存要約

• ⼊⼒に由来するもの3. ⼊⼒⽂書の数:単⼀⽂書要約/複数⽂書要約

• 技術に由来するもの4. 要約を作る⽅法:抽出的要約/⽣成的要約

4つの主要な分類が存在

Page 16: Automatic summarization

⾃動要約の分類

2014/01/27 16

1. 要約の使い⽅:指⽰的要約 or 報知的要約– 指⽰的:原⽂書を読むべきか判断するための要約(e.g.新聞の

⾒出し)– 報知的:原⽂書の代わりとする要約(e.g.ニュースの字幕)

2. 必要な情報の指定:クエリ依存 or クエリ⾮依存– クエリ依存:何らかのクエリ(特定の情報への要求)に対する

要約(e.g.スニペット)– クエリ⾮依存:特定の情報に依らない要約

読み⼿に由来する分類

Page 17: Automatic summarization

⾃動要約の分類

2014/01/27 17

3. ⼊⼒:単⼀⾃動要約 or 複数⾃動要約– 単⼀:1つの⽂書を要約– 複数:1つ以上の⽂書を要約

4. ⼿法:抽出的要約 or ⽣成的要約– 抽出的要約:原⽂書を⽂に分解し、要約として相応しい⽂を選

び(重要⽂抽出)、それらを繋げることで作る要約– ⽣成的要約:原⽂書にない表現を含む(新しい表現を⽣成す

る)要約

⼊⼒と技術に由来するもの

Page 18: Automatic summarization

⾃動要約の分類

2014/01/27 18

研究の焦点は以下の組み合わせ

1.使い⽅ 指⽰的 報知的

2.情報 クエリ依存 クエリ⾮依存

3.⼊⼒ 単⼀ 複数

4.⼿法 抽出的 ⽣成的

Page 19: Automatic summarization

⾃動要約の要素技術

2014/01/27 19

1. ⽂分割:⽂書を⽂に分割する2. ⽂短縮:修飾節を削除するなどして、原⽂より短い原

⽂の「亜種」を作る3. 重要⽂抽出:要約に相応しい⽂を選び出す4. ⽂の順序付け:選んだ⽂を適切に並べる5. 評価: ROUGE で評価,読みやすさについては⼈⼿

以下の要素技術の組み合わせで要約が⾏われる

Page 20: Automatic summarization

⾃動要約の要素技術

2014/01/27 20

ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。⼤統領に即時退陣を迫る構え。

反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

Page 21: Automatic summarization

⾃動要約の要素技術:⽂分割

2014/01/27 21

ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。⼤統領に即時退陣を迫る構え。

反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

1. ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。

2. ⼤統領に即時退陣を迫る構え。

3. 反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。

4. エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

Page 22: Automatic summarization

⾃動要約の要素技術:⽂短縮

2014/01/27 22

3. 反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者 が 出 た エ ジ プト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。

3a.反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。

3b.多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。

3c.エジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。

Page 23: Automatic summarization

⾃動要約の要素技術:⽂選択

2014/01/27 23

1. ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。

2. ⼤統領に即時退陣を迫る構え。

3. 反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。

4. エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

1. ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。

4. エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

Page 24: Automatic summarization

⾃動要約の要素技術:順序付け

2014/01/27 24

1. ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。

4. エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

4. エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

1. ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。

※単⼀⾃動要約の場合は不要

Page 25: Automatic summarization

⾃動要約の要素技術:評価

2014/01/27 25

• 評価の側⾯– 内容的品質:原⽂書の内容を適切に反映した要約になっている

か?– ⾔語的品質:読みやすい要約になっているか?

• 評価の⽅法– 内的な評価:要約「そのもの」の品質を評価– 外的な評価:要約以外のタスクで要約の品質を評価(例えば,

要約だけを使って情報検索の精度が下がらないか,など)

要約の評価は2種類×2種類に分かれる

Page 26: Automatic summarization

⾃動要約の要素技術:内容

2014/01/27 26

• 機械が⽣成した要約と,⼈間による要約(参照要約)とのn-gram類似度を計算

⾃動評価尺度 ROUGE (Lin04) が存在

エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。

機械による要約ムバラク⼤統領に対する抗議デモが続くエジプトで、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突が発⽣した。衝突の際には、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。更に4⽇には、反体制派が⼤規模デモの実施を計画している。

⼈間による要約

Page 27: Automatic summarization

⾃動要約の要素技術:⾔語

2014/01/27 27

• ⼈⼿によって以下の5尺度を評価することが⼀般的1. ⽂法性:⽂法的でない⽂が含まれていないか?2. 冗⻑性:全く同じ情報が繰り返されていないか?3. 照応・省略:先⾏詞のない指⽰詞が含まれていないか?4. 焦点:要約全体と無関係な情報が含まれていないか?5. 構造と結束性:接続詞を補ったり削除したりする必要のある箇

所はないか?• ⾼コストで,⾃動化が望まれている• 最近は Amazon Mechanical Turk が使われる

⾃動評価法はまだ確⽴されていない

Page 28: Automatic summarization

⾃動要約の要素技術:まとめ

2014/01/27 28

1. ⽂分割:⽂書を⽂に分割する2. ⽂短縮:修飾節を削除するなどして、原⽂より短い原

⽂の「亜種」を作る3. 重要⽂抽出:要約に相応しい⽂を選び出す4. ⽂の順序付け:選んだ⽂を適切に並べる5. 評価: ROUGE で評価,読みやすさについては⼈⼿

5つの主要な要素技術が存在

Page 29: Automatic summarization

S = argmaxS

f (S;D,U)

≈ argmaxS

f (S;w)

要素技術の分解

2014/01/27 29

• ⼊⼒⽂書集合 D とユーザーの要求 U が与えられたとき,それを最⼤化する S を探す問題として定式化

要素技術をモデル,学習法,デコード法に整理

モデル(⽬的関数の形態)

デコード(最良の S の探索)

パラメータ(重み,特徴量)

Page 30: Automatic summarization

要素技術の分解

2014/01/27 30

⽂分割 ⽂短縮 ⽂選択 ⽂の並べ替え 評価

モデル

• 逐次予測 (Paice+90,Gillick+09)

• Sequential Labeling (Hirao+10)

• 構⽂⽊の枝刈り(Jing00;Clarke+07;Nomoto+07;Zajic+07),

• STSG ( Cohn+07;Cohn+08),

• QSG (Woodsend+10)

• 最⼤被覆問題(Fillatova+04;Yih+07;Gillick+09;⾼村+08)

• ナップサック問題(McDonald+07;平尾+09)

• 施設配置問題 (⾼村+10)

• 巡回セールマン問題(Althaus+04)

• 景品収集巡回セールスマン問題 (Nishikawa+10)

• ROUGE (Lin04)• 拡張⽂字列カーネル (平

尾+06)• Pyramid

(Nenkova+07)• 投票型回帰モデル (平尾

+07)

学習・特徴量・

• 規則 (Paice+90), • SVM (Gillick+09)

• 規則 (Jing00)• 統計 (Clarke+06)• CRF (Nomoto+07)• Structured SVM

(Cohn+07)

• Naïve Bayes(Kupeic+95),

• Maximum Entropy(Osborne02)

• Logistic Regression(Yih+07)

• SVM (Hirao+02)

• 規則(Barzilay+02;Okazaki+04)

• 統計 (Lapata+03)• SVM (Bollegala+06)

• n-gram (Lin04), • Summary Content

Unit (Nenkova+07)

デコード

N/A • Dynamic Programing(Cohn+07;Nomoto+07;Cohn+09;Hirao+09),

• ILP(Clarke+06;Woodsend+10)

• 貪欲法 (Filatova+04),• Stack Decoder

(Yih+07)• ILP (McDonald07)• Lagrange Relaxation

(Nishikawa+12;Almeida+13;Nishino+13)

• Greedy (Lapata+03)• A* (Soricut+06)• ILP

(Althaus+04;NIshikawa+10)

N/A

⼤まかに以下のように分類できる⽂分割 ⽂短縮 ⽂選択 け⽂の順序付け 評価

モデル

学学習・

特徴量

デコード

Page 31: Automatic summarization

要約研究の成り⽴ち

2014/01/27 31

⼊⼒等の制約と現在の到達点等々加味して要約研究が成⽴

読者技術

要約研究

⼊⼒⽂書集合

どうすれば会議に通るか……

⽂分割 ⽂短縮 ⽂選択 ⽂の並べ替え 評価

モデル

• 逐次予測 (Paice+90,Gillick+09)

• Sequential Labeling (Hirao+10)

• 構⽂⽊の枝刈り(Jing00;Clarke+07;Nomoto+07;Zajic+07),

• STSG ( Cohn+07;Cohn+08),

• QSG (Woodsend+10)

• 最⼤被覆問題(Fillatova+04;Yih+07;Gillick+09;⾼村+08)

• ナップサック問題(McDonald+07;平尾+09)

• 施設配置問題 (⾼村+10)

• 巡回セールマン問題(Althaus+04)

• 景品収集巡回セールスマン問題(Nishikawa+10)

• ROUGE (Lin04)• 拡張⽂字列カーネル

(平尾+06)• Pyramid

(Nenkova+07)• 投票型回帰モデル (平

尾+07)

学習・特徴量・

• 規則 (Paice+90), • SVM (Gillick+09)

• 規則 (Jing00)• 統計 (Clarke+06)• CRF (Nomoto+07)• Structured SVM

(Cohn+07)

• Naïve Bayes(Kupeic+95),

• Maximum Entropy(Osborne02)

• Logistic Regression(Yih+07)

• SVM (Hirao+02)

• 規則(Barzilay+02;Okazaki+04)

• 統計 (Lapata+03)• SVM (Bollegala+06)

• n-gram (Lin04), • Summary Content

Unit (Nenkova+07)

デコード

N/A • Dynamic Programing(Cohn+07;Nomoto+07;Cohn+09;Hirao+09),

• ILP(Clarke+06;Woodsend+10)

• 貪欲法 (Filatova+04),• Stack Decoder

(Yih+07)• ILP (McDonald07)• Lagrange

Relaxation(Nishikawa+12;Almeida+13;Nishino+13)

• Greedy (Lapata+03)• A* (Soricut+06)• ILP

(Althaus+04;NIshikawa+10)

N/A

Page 32: Automatic summarization

あらまし

2014/01/27 32

1. 導⼊– 定義– 分類– 要素技術

2. 今⽇の⾃動要約技術– 対象– ⽂選択・⽂短縮・⽂の順序付け

3. まとめ

Page 33: Automatic summarization

要約の対象

2014/01/27 33

規模が拡⼤,テキストの品質は低下,どんどん難しく

新聞記事

⼊⼒規模

電⼦メール

レビュー

書籍 ⾳声

ツイッター

テキストの品質の低さ

技術⽂献

ブログ

Page 34: Automatic summarization

要約の対象

2014/01/27 34

• 科学技術⽂献・新聞記事からスタート– 技術⽂献 (Luhn58;Edmundson69;Pollock75)– 新聞記事 (Luhn58;Aone+98)

• 安価な計算機/インターネットの普及以降,多様なテキストが要約の対象となる– ⾳声 (Furui+04;Lin+09;Xie+09;Higashinaka+10)– 電⼦メール (Muresan+01;Sandu+10)– レビュー (Carenini+06;Lerman+09)– ツイッター (Sharifi+10;Takamura+11;久保+13)

急速に要約の対象が拡⼤

Page 35: Automatic summarization

⽂選択

2014/01/27 35

• 個別の⽂の逐次的選択 (Barzilay+97;Radev+04)• 以下のような素朴な⽅法

1. それぞれの⽂に個別にスコアを与える• 重要と思われる内容語を含む⽂には⾼いスコアを与えるなど

2. スコアが⾼い⽂から順番に選ぶ3. 選んだ⽂を連結して要約として出⼒

⽂の逐次的な選択

Page 36: Automatic summarization

⽂選択

2014/01/27 36

• Filatova による定式化 (Filatova+04)– 陽な⽬的関数の導⼊– モデル,パラメータ,デコードの分離– 個別の⽂の逐次的選択から,最良の部分⽂集合の探索へ

• 現代的な統計的⾃然⾔語処理の⼀分野として体裁が整う

⾃動要約を最適化問題として再定義

Page 37: Automatic summarization

⽂選択

2014/01/27 37

• 単⼀⽂書を構成する⽂の集合から,⻑さの制約を満たす部分集合を選択 (McDonald07; 平尾+09)

• 典型的なナップサック問題!• 動的計画ナップサックアルゴリズムで擬多項式時間での

求解が可能

単⼀⽂書要約:ナップサック問題

⼊⼒:⽂数 n ,各⽂のスコア s1, s2, … sn と各⽂の⻑さ l1, l2, … ln,および最⼤要約⻑ L出⼒:部分集合のうち⻑さの和が L 以内で s の和が最⼤のもの

Page 38: Automatic summarization

⽂選択

2014/01/27 38

国連安全保障理事会は20⽇、⻄アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介⼊を認める決議を全会⼀致で採択した。混迷のマリ情勢は新たな局⾯に⼊る。決議では、アフリカ国際マリ⽀援部隊(AFISMA)に対し「必要なあらゆる⼿段の⾏使」を認めた。派遣部隊はまずマリ軍兵⼠の教育や作戦を⽀援する。

これもナップサック問題を解いている国連安全保障理事会は20⽇、⻄アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介

⼊を認める決議を全会⼀致で採択した。周辺国で構成する⻄アフリカ諸国経済共同体(ECOWAS)による3300⼈規模の部隊派遣を承認。混迷のマリ情勢は新たな局⾯に⼊る。

決議では、アフリカ国際マリ⽀援部隊(AFISMA)に対し「必要なあらゆる⼿段の⾏使」を認めた。派遣部隊はまずマリ軍兵⼠の教育や作戦を⽀援する。派遣期間は1年。軍事⾏動の開始は来年秋以降になる⾒通し。

マリでは3⽉、⾸都バマコで反乱軍によるクーデターが発⽣。イスラム過激派が北部を制圧し、国⼟は事実上⼆分された。今⽉10⽇には政府軍兵⼠らがディアラ暫定政府⾸相の⾝柄を拘束。⾸相は翌11⽇に退陣を表明し、混乱が加速した。ロイター通信によると、ディアラ⾸相拘束はクーデターを主導したサノゴ⼤尉の指⽰。背景には⾸相とトラオレ暫定⼤統領らとの間の政治的対⽴があったとされ、トラオレ⼤統領は職務を継続している

Page 39: Automatic summarization

⽂選択

2014/01/27 39

複数⽂書要約:最⼤被覆問題 (Filatova+04)

ムバラク⼤統領に対する抗議デモが続くエジプトで、反政府派が4⽇に⼤規模デモを実施する。⼤統領に即時退陣を迫る構え。

反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。エジプトで続く抗議デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

エジプト・カイロで2⽇から3⽇未明にかけて,反政府派と⼤統領⽀持派が衝突.反政府派は4⽇に⼤規模デモを実施,⼤統領に即時退陣を迫る.

Page 40: Automatic summarization

⽂選択

2014/01/27 40

• 異なり語をできる限り被覆する要約⻑内の⽂集合を選択複数⽂書要約:最⼤被覆問題

単語A 単語B⽂1

単語C 単語D⽂2

単語A 単語C⽂3

単語A 単語B⽂1⽂2 単語C 単語D

4点 3点 2点 1点

10点

Page 41: Automatic summarization

⽂選択

2014/01/27 41

• 異なり語をできる限り被覆する要約⻑内の⽂集合を選択複数⽂書要約:最⼤被覆問題

単語A 単語B⽂1

単語C 単語D⽂2

単語A 単語C⽂3

4点 3点 2点 1点

9点単語C⽂1⽂3 単語A 単語B

Page 42: Automatic summarization

⽂選択

2014/01/27 42

• ⼊⼒された各⽂がどの単語を含むかを⽰す⾏列と,その単語の重要度を予め⽤意しておく

• 典型的な複数⽂書要約モデルであるため,様々な⽅法が提案されている– 貪欲法 (Filatova+04) ,スタックデコーダ (Yih+07) ,分枝限

定法 (⾼村+08;Gillick+09) など

最⼤被覆問題の求解

⼊⼒:⽂数 n ,単語数 m ,⽂ 1 から⽂ n がそれぞれ含む単語を⽰す⾏列 M = ( c1,1, c1,2, …, cn,m-1, cn,m ) ,各単語のスコア w1, …, wm ,⽂の⻑さ l1, l2, … ln および最⼤要約⻑ L出⼒:部分集合のうち⻑さの和が L 以内で,選ばれている⽂が含む単語のスコアの和が最⼤のもの

Page 43: Automatic summarization

⽂選択

2014/01/27 43

• 少数の部分集合で⽂集合をできる限り「含意」(⾼村+10)

複数⽂書要約:施設配置問題

ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。

⼤統領に即時退陣を迫る構え。反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。

エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

エジプト・カイロでは依然ムバラク⼤統領に対する抗議デモが続いており,反体制派は4⽇⼤統領に即時退陣を迫る⼤規模デモを計画。

Page 44: Automatic summarization

⽂選択

2014/01/27 44

• 少数の部分集合で⽂集合をできる限り「含意」(⾼村+10)

複数⽂書要約:施設配置問題

ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。

⼤統領に即時退陣を迫る構え。反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。

エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

エジプト・カイロでは依然ムバラク⼤統領に対する抗議デモが続いており,反体制派は4⽇⼤統領に即時退陣を迫る⼤規模デモを計画。

Page 45: Automatic summarization

⽂選択

2014/01/27 45

• 少数の部分集合で⽂集合をできる限り「含意」(⾼村+10)

複数⽂書要約:施設配置問題

ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する。

⼤統領に即時退陣を迫る構え。反政府派と⼤統領派が2⽇、激しく衝突し多数の死傷者が出たエジプト・カイロは、⼀夜明け、双⽅で散発的に投⽯が⾏われるなど、緊迫した状態が続いている。

エジプトで続く反政府デモは、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

エジプト・カイロでは依然ムバラク⼤統領に対する抗議デモが続いており,反体制派は4⽇⼤統領に即時退陣を迫る⼤規模デモを計画。

Page 46: Automatic summarization

⽂選択

2014/01/27 46

• テキスト含意認識 (Dagan+06):2つの⽂が与えられたときに,それらが含意関係にあるか判定

• 難しい問題だが,統計的分類器などを⽤いて判定

⽂ a が⽂ b を「含意する」とは?

12⽇午前3時25分,千葉県銚⼦市沖で震度5の地震が観測された。

12⽇未明,千葉県で⼤地震が発⽣。

12⽇,千葉県沖で地震が発⽣。

微妙?含意千葉県銚⼦市沖を千葉県といってよいか?

震度5の地震は⼤地震か?

午前3時25分は未明か?

Page 47: Automatic summarization

⽂選択

2014/01/27 47

• NP 困難

• 貪欲法や分枝カット法などが⽤いられる

施設配置問題の求解

⼊⼒:⽂数 n ,⽂ i が⽂ j を含意する程度 e ∈ [0, 1] を⽰す⾏列 M = ( e1,2, …, en-1,n ) ,各⽂の⻑さ l1, l2, … ln, および最⼤要約⻑ L出⼒:部分集合のうち⻑さの和が L 以内で選ばれている⽂が⽂集合全体を含意する値が最⼤のもの

Page 48: Automatic summarization

⽂選択

2014/01/27 48

• 劣モジュラ最適化 (Lin+10;Lin+11;Morita+13)– ⽬的関数が劣モジュラ性を持つ=最適化が容易– 劣モジュラ性のある⽬的関数をわざと⽤意しておけば,解きや

すくなる• ラグランジュ緩和

(Nishikawa+12;Almeida+13;Nishino+13)– 元問題を解きやすい部分問題に分割,部分問題をそれぞれ解い

て,解が合意するよう近づける

マニアックな⽅向に……

Page 49: Automatic summarization

⽂選択における学習・特徴量

2014/01/27 49

• 頻度や⼿がかり語といった特徴量は⾃動要約黎明期より存在 (Luhn58;Edmundson69)

• 90年代より機械学習による⽂の重み付け(あるいは分類)が始める– Naïve Bayes (Kupiec+95), Maximum Entropy Classifier

(Osborne02), SVM (Hirao+02), Logistic Regression (Yih+07)

• 特徴量は bag-of-words や⽂の位置など

⽂に対する重み付け(分類)

Page 50: Automatic summarization

⽂選択における学習・特徴量

2014/01/27 50

• 新聞– 単語,固有表現,述語項構造

• レビュー– Aspect-Polarity の2つ組をスコアリングの単位として設定

(Carenini+06;Lerman+09)• ⼈⼿で⽬的に合わせて設定• Deep learning の出番?

対象に合わせた特徴量を研究者が設定

Page 51: Automatic summarization

⽂選択における学習・特徴量

2014/01/27 51

• 個別の重みづけから構造学習へ– Structured SVM (Takamura+10;Berg-Kirkpatrick+11;

Lee+12, Almeida+13)– ROUGE の損失関数への導⼊(MERT的)

• ⾃動要約はデータが少ない:転移学習の導⼊– 様々なドメインのデータがあるが,量が少ない– (Sandu+10;Xie+10;Lee+13)

個別の重みづけから構造学習へ

Page 52: Automatic summarization

⽂短縮

2014/01/27 52

• 抽出的要約の限界から⽣じる (Jing00)– 抽出的アプローチにおいては⻑い⽂は扱いづらい

• 構⽂⽊を刈り込む– 落としても良さそうなノードを

落とす– 規則 (Jing00;Zajic+07),

統計 (Clarke+06), 学習 (Turner+05)

• 構⽂⽊を仮定しないものも– Sequential Labeling (Hirao+10)

⽂選択の前処理,構⽂⽊の枝刈り

Turner and Charniak: Supervised and unsupervised learning for sentence compression. ACL 2005.

Page 53: Automatic summarization

⽂短縮

2014/01/27

構⽂⽊を刈り込む

「N700A」が、

東海道新幹線で、6年ぶりと

新型⾞両

なる

8⽇から

開始し、

営業運転を

出発式が

東京駅と

⾏われました

新⼤阪駅で

56⽂字

53

Page 54: Automatic summarization

⽂短縮

2014/01/27

構⽂⽊を刈り込む

東海道新幹線で、

「N700A」が、

新型⾞両

開始し、

営業運転を

出発式が⾏われました

新⼤阪駅で

41⽂字

54

Page 55: Automatic summarization

⽂短縮

2014/01/27

部分⽊のよさを測る指標を定義

東海道新幹線で、

「N700A」が、

新型⾞両

8⽇から

開始

営業運転を

出発式が

東京駅と

⾏われました

新⼤阪駅で

10点15点

55

Page 56: Automatic summarization

⽂短縮

2014/01/27

• 重要度– 部分⽊が含む単語の重要度– 「東海道新幹線」「新型⾞両」– tf-idf などの統計量や,機械

学習に基づいたスコアリング• ⾔語尤度

– 係り受け• pdep(開始|新幹線,で)

– n-gram• pn-gram(開始|運転,を)

部分⽊のよさを測る指標を定義

東海道新幹線で、

「N700A」が、

新型⾞両

8⽇から

開始

営業運転を

15点

56

Page 57: Automatic summarization

⽂短縮

2014/01/27 57

• 近似解法– 幅優先探索(ビームサーチ,スタックデコーダ)

• もちろん整数計画問題として表現することもできる– グラフカットとももちろん⾒なせる

様々な探索法が⽤いられる⼊⼒:⽊ T (ノード v1, …, vn とエッジ e1, …, em ),ノードのスコア w1, …, wn とエッジのスコア c1, …, cn ,各ノードの⻑さ l1, l2, … ln と最⼤⽂⻑ L出⼒:ノードのスコアとエッジのスコアの和が最⼤となる部分⽊

Page 58: Automatic summarization

⽂短縮

2014/01/27 58

• 同期⽂脈⾃由⽂法による書き換え (Galley+07) から同期⽊置換⽂法による書き換え (Cohn+09) へ

• さらに準同期⽂法 による書き換え (Woodsend+10)– STSG よりも「ゆるい」対応付け

• syntax-based MT の後を追う

構⽂⽊の枝刈りから同期⽂法に基づく書き換えへ

Cohn and Lapata: Sentence Compression as Tree Transduction. JAIR 34, pp.637—674, 2009.

Page 59: Automatic summarization

⽂短縮

2014/01/27 59

対になっている構⽂⽊から同期⽂法を学習

Cohn and Lapata: Sentence Compression as Tree Transduction. JAIR 34, pp.637—674, 2009.

Page 60: Automatic summarization

⽂の並べ替え

2014/01/27 60

• ⽂の順序によってつながりのよさが異なる選択した⽂集合を並べないといけない

1. ムバラク⼤統領に対する抗議デモが続くエジプトで、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突が発⽣した。

2. 衝突の際には、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

3. 更に4⽇には、反体制派が⼤規模デモの実施を計画している。

1. 更に4⽇には、反体制派が⼤規模デモの実施を計画している。

2. 衝突の際には、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

3. ムバラク⼤統領に対する抗議デモが続くエジプトで、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突が発⽣した。

• 国語の問題を機械に解かせる

Page 61: Automatic summarization

⽂の並べ替え

2014/01/27 61

巡回セールスマン問題の出現

⽂1

⽂2

⽂3

⽂書頭

⽂2

⽂3

⽂1

⽂2

⽂3

⽂3 ⽂1

⽂3⽂書末

⽂2

⽂1

⽂1

⽂2

Page 62: Automatic summarization

⽂の並べ替え

2014/01/27 62

• 様々な⼿がかり

• テキストから特徴の連鎖を学習し,⽂のつながりのよさを与えるパラメータを学習 (Lapata03, Barzilay+05)

⽂のつながりのよさとは?

1. ムバラク⼤統領に対する抗議デモが続くエジプトで、2⽇から3⽇未明にかけて、反政府派と⼤統領⽀持派の衝突が発⽣した。

2. 衝突の際には、⽕炎瓶が建物や⾞に引⽕し、⾄るところで⽕の⼿が上がり、⿊煙が⽴ち込めた。

3. 更に4⽇には、反体制派が⼤規模デモの実施を計画している。

連続する⽂には同じ語彙が⽤いられやすい

副詞「更に」が⽂書頭に来ることはない

最初の⽂には固有表現が含まれやすい(ムバラク⼤統領,エジプト,2⽇,3⽇)

Page 63: Automatic summarization

⽂の並べ替え

2014/01/27 63

• 選択した⽂集合に最適な順列を与える (Althaus+04)

• 分枝カット法などで求解

整数計画問題として表現,求解

⼊⼒:⽂数 n ,⽂ s1, …, sn および⽂書頭 s0 ,⽂書末 sn+1 のつながりのよさを与える⾏列 M = (c0,1, c0,2, …, cn-1,n+1, cn,n+1)出⼒:つながりのよさの和が最⼤の順列

Page 64: Automatic summarization

同時推論

2014/01/27 64

• ⽂短縮+⽂選択– (Martins+09;富⽥+09;Woodsend+10;Berg-

Kirkpatrick+11;Woodsend+12;Morita+13)– 構造学習+転移学習+拡張ラグランジュ緩和の全部⼊りなども

…… (Almeida+13)• ⽂選択+⽂の順序付け

– (Nishikawa+10;Christensen+13)• デコードの⼯夫が重要

主戦場は同時推論に

Page 65: Automatic summarization

まとめ

2014/01/27 65

• 現代的な統計的⾃然⾔語処理の⼀分野として成熟しつつある– 要約という⾔語現象に関する知識に基づき,機械学習や組み合

わせ最適化を⽤いて計算機上で要約プログラムを実装• 最適化問題の⼀種として興味深い• ⾔語を出⼒するタスクとして,やはり評価が⼤変

⾃動要約の研究動向についてお話差し上げました

Page 66: Automatic summarization

参考⽂献

2014/01/27 66

• Jurafsky and Martins. Speech and Language Processing (2nd eds.). Prentice Hall, 2008.

• Mani. Automatic Summarization. John Benjamins Pub co, 2001.• Mani and Maybury (eds.). Advances in Automatic Text Summarization. MIT

Press, 1999.• Nenkova and McKeown. Automatic Summarization. now Publishers Inc.,

2011.• 奥村 and 難波. テキスト⾃動要約に関する最近の話題. ⾃然⾔語処理, 9(4):97

116, 2002.• 奥村 and 難波. テキスト⾃動要約. オーム社, 2005.• 佐久間 (eds.). ⽂書構造と要約⽂の諸相. くろしお出版. 1989.• Sparck-Jones and Endres-Niggemeyer. Automatic Summarizing. Information

Processing and Management, 31(5):625630, 1995.

書籍・サーベイ論⽂

Page 67: Automatic summarization

参考⽂献

2014/01/27 67

• Althaus et al. Computing Locally Coherent Discourse. ACL 2004.• Almeida et al. Fast and Robust Compressive Summarization with Dual Decomposition and Multi-Task Learning. ACL 2013.• Aone et al. Trainable, Scalable Summarization Using Robust NLP and Machine Learning. Coling 1998.• Barzilay et al. Using Lexical Chains for Text Summarization. ISTS 1997.• Barzilay et al. Inferring Strategies for Sentence Ordering in Multidocument News Summarization. JAIR, 17, 2002.• Barzilay et al. Modeling Local Coherence: An Entity-based Approach. ACL 2005• Berg-Kirkpatrick et al. Jointly Learning to Extract and Compress. ACL 2011• Bollegala et al. A Bottom-up Approach to Sentence Ordering for Multi-document Summarization. COLING/ACL 2006.• Carenini et al. Multi-document summarization of evaluative text. EACL 2006.• Christensen et al. Towards Coherent Multi-Document Summarization. NAACL 2013.• Clarke et al. Constraint-based Sentence Compression An Integer Programming Approach. COLING/ACL 2006.• Cohn et al. Large Margin Synchronous Generation and its Application to Sentence Compression. EMNLP/CoNLL 2007.• Cohn et al. Sentence Compression as Tree Transduction. JAIR, 34, 2009.• Dagan et al. The PASCAL Recognising Textual Entailment Challenge. Machine Learning Challenges. Evaluating Predictive

Uncertainty, Visual Object Classification, and Recognising Textual Entailment. 2006.• Edmundson. New Methods in Automatic Extracting. Journal of ACM, 16(2), 1969.• Filatova et al. A formal model for information selection in multi-sentence text extraction. COLING 2004.• Furui et al. Speech-to-Text and Speech-to-Speech Summarization. IEEE Trans. on Speech and Audio Processing, 12(4),

2004.

Page 68: Automatic summarization

参考⽂献

2014/01/27 68

• Galley et al. Lexicalized Markov Grammars for Sentence Compression. NAACL-HLT 2007.• Gillick. Sentence Boundary Detection and the Problem with the U. S. NAACL-HLT 2009.• Gillick et al. A Scalable Global Model for Summarization. NAACL-HLT Workshop on ILP for NLP 2009.• Higashinaka et al. Improving HMM-based Extractive Summarization for Multi-Domain Contact Center Dialogues. SLT 2010.• Hirao et al. Extracting Important Sentences with Support Vector Machines. COLING 2002.• 平尾 et al. 拡張ストリングカーネルを⽤いた要約の⾃動評価法. 情報処理学会論⽂誌, 47(6), 2006.• 平尾 et al. 投票型回帰モデルによる要約の⾃動評価法. ⼈⼯知能学会論⽂誌, 22(2), 2007.• Hirao et al. A Syntax-Free Approach to Japanese Sentence Compression. ACL-IJCNLP 2009.• Jing. Sentence reduction for automatic text summarization. ANLP 2000.• 久保 et al. “良い実況者”に着⽬したTwitter からのスポーツ速報⽣成. ⾔語処理学会年次⼤会 2013.• Kupiec et al. A Trainable Document Summarizer. SIGIR 1995.• Lapata. Probabilistic Text Structuring: Experiments with Sentence Ordering. ACL 2003.• Lee et al. Unsupervised Domain Adaptation for Spoken Document Summarization with Structured Support Vector Machine.

ICASSP 2013.• Lerman et al. Sentiment Summarization: Evaluating and Learning User Preferences. EACL 2009.• Lin. ROUGE: A Package for Automatic Evaluation of Summaries. ACL Workshop on Text Summarization Branches Out 2004.• Lin. Graph-based Submodular Selection for Extractive Summarization. ASRU 2009.• Lin. Multi-document Summarization via Budgeted Maximization of Submodular Functions. NAACL 2010.• Lin. A Class of Submodular Functions for Document Summarization. ACL 2011.• Luhn. The automatic creation of literature abstracts. IBM Journal of Research Development, 2(2). 1958• Martins et al. Summarization with a Joint Model for Sentence Extraction and Compression. NAACL Workshop on ILP for NLP,

2009.• McDonald. A Study of Global Inference Algorithms in Multi-document Summarization. ECIR 2007.

Page 69: Automatic summarization

参考⽂献

2014/01/27 69

• Morita et al. Subtree Extractive Summarization via Submodular Maximization. ACL 2013.• Muresan et al. Combining linguistic and machine learning techniques for email summarization. CoNLL 2001.• Nenkova et al. The Pyramid Method. ACM TSLP, 4(2). 2007.• Nishikawa et al. Opinion Summarization with Integer Linear Programming Formulation for Sentence Extraction and Ordering.

COLING 2010.• Nishikawa et al. Text Summarization Model based on Redundancy-Constrained Knapsack Problem. COLING, 2013.• Nishino et al. Text Summarization while Maximizing Multiple Objectives with Lagrangian Relaxation. ECIR 2013.• Nomoto. Discriminative sentence compression with conditional random fields. IP&M, 43(6). 2007.• Okazaki et al. Improving Chronological Sentence Ordering by Precedence Relation. COLING 2004.• Osborne. Using Maximum Entropy for Sentence Extraction. Workshop on Automatic Summarization 2002.• Paice. Constructing Literature Abstracts by Computer: Techniques and Prospects. IP&M, 26(1). 1990• Pollick et al. Automatic abstracting research at the chemical abstracts service. Journal of• Chemical Information and Computer Sciences, 15. 1975.• Radev et al. Centroid-based summarization of multiple documents. IP&M, 40(6). 2004.• Sandu et al. Domain Adaptation to Summarize Human Conversations. ACL Workshop on Domain Adaptation for NLP 2010.• Sharifi et al. Summarizing Microblogs Automatically. NAACL 2010.

Page 70: Automatic summarization

参考⽂献

2014/01/27 70

• Soricut et al. Stochastic Language Generation Using WIDL-expressions and its Application in Machine Translation and Summarization. ACL 2006.

• ⾼村 et al. 最⼤被覆問題とその変種による⽂書要約モデル. ⼈⼯知能学会論⽂誌, 23(6). 2008.• ⾼村 et al. 施設配置問題による⽂書要約のモデル化. ⼈⼯知能学会論⽂誌, 25(1), 2010.• Takamura et al. Summarizing a Document Stream. ECIR 2011.• 富⽥ et al.重要⽂抽出と⽂圧縮を組み合わせた新たな抽出的要約⼿法. 情報処理学会第189回⾃然⾔語処理研究会 2009.• Turner et al. Supervised and Unsupervised Learning for Sentence Compression. ACL 2005.• Woodsend et. al. Automatic Generation of Story Highlights. ACL 2010.• Woodsend et. al. Multiple Aspect Summarization Using Integer Linear Programming. EMNLP/CoNLL 2012.• Xie et al. Leveraging sentence weights in a concept-based optimization framework for extractive meeting summarization.

Interspeech 2009.• Xie et al. Semi-supervised extractive speech summarization via co-training algorithm. Interspeech 2010.• Yih et al. Multi-Document Summarization by Maximizing Informative Content-Words. IJCAI 2007.• Zajic et al. Multi-candidate reduction: Sentence compression as a tool for document summarization tasks. IP&M, 43(6).

2007.