Recruit Technologies Open Lab #01 自然言語処理の新展開

自然言語処理の新展開

2015年4月21日

首都大学東京

システムデザイン学部

小町守

自己紹介: 小町守（こまちまもる）

2

2005.03 東京大学教養学部基礎科学科科学史・科学哲学分科卒業

2010.03 奈良先端大・博士後期課程修了博士（工学）専門: 自然言語処理

2010.04〜2013.03 奈良先端大助教（松本裕治研究室）

2013.04〜首都大学東京准教授（自然言語処理研究室）

本日の目次

深層学習が自然言語処理に与えるインパクト

自然言語処理の新たな発展

3

深層学習（deep learning）

複数レイヤーのニューラルネットワークによって複雑なモデルを学習する仕組み

様々なパターン認識タスクで大幅な性能向上を達成し、Google, Facebook,

Microsoft, Baiduなどさまざまな企業がこぞって研究

4

Lee et al., ICML 2009.

5

深層学習の長所

素性工学（feature engineering）が不要。ラベルなしデータから自動的に有効な素性の組み合わせが学習可能。→ハイパーパラメータは存在

データから大域的な表現学習（distributed

representation）が可能→クラスタリングは局所的な表現学習

6

ニューラルネットワークのブレイクスルー

Hinton et al., A Fast Learning Algorithm for

Deep Belief Nets, Neural Computing, 2006.

ニューラルネットワークは1950年代からあったが、表現能力が高すぎて（データ量に対して）過学習になりやすかった。→層ごとに学習を行い、複数層を重ねることで過学習の問題が解決できた！

7

再帰的ニューラルネットワークを用いた画像認識と構文解析

8

• Parsing Natural

Scenes and Natural

Language with

Recursive Neural

Networks, Socher et

al., ICML 2011.

• 隣接する画像領域・単語から再帰的に構造を認識する→Staford Parser に統合 (ACL 2013)

再帰的ニューラルネットワークでフレーズの感情極性分類も実現

9

• Recursive Deep Models for

Semantic Compositionality

Over a Sentiment Treebank,

Socher et al., EMNLP 2013.

Socher et al. (NIPS 2011): 単語ベクトルから文の意味を再帰的に計算

10

リカレントニューラルネットワークで無限長の文脈を考慮可能

11

• Recurrent Neural Network based Language Model,

Mikolov et al., InterSpeech 2010.

→過去の履歴を考慮して現在の単語を予測するモデル

機械翻訳も系列から系列を生成するモデルとして深層学習で扱える

Sequence to Sequence Learning with

Neural Networks, Sutskever et al., NIPS

2014.

→LSTM (Long-Short Term Memory) を2つ用い、入力系列を固定長のベクトルに変換し、そのベクトルから出力系列を生成

12

文字だけから深層学習でテキスト分類やプログラムができてしまう

Text Understanding from Scratch, Zhang and

LeCun, arXiv 2015.

→文字だけから中英のテキスト分類器を学習

Learning to Execute, Zaremba and Sutskever,

arXiv 2015.

→RNNとLTSMだけからPythonプログラムを「学習」して実行

13

深層学習を使ってマルチモーダルな入出力を自然に統合

画像だけからキャプションを生成http://deeplearning.cs.toronto.edu/i2t

http://googleresearch.blogspot.jp/2014/11/a-picture-is-

worth-thousand-coherent.html

14

本日の目次

深層学習が自然言語処理に与えるインパクト


15

自然言語処理の成功

識別モデル

タグつきコーパスを用意して教師あり学習

形態素解析、固有表現認識、構文解析、etc

最適化問題

ランキングや組み合わせ最適化問題に定式化

ウェブ検索、機械翻訳、文書要約、etc

16

世界を挙げた多言語処理のための要素技術の研究開発

CoNLL: Conference on Natural Language

Learningの共通タスク（毎年開催）

2012: 多言語談話解析

2009: 多言語構文・意味解析

2006, 2007: 多言語構文解析

同じアルゴリズムを複数の言語に適用し、言語によらない解析手法を探求

17

Java による多言語処理ツール（商用のモデルライセンスは要交渉）

Stanford CoreNLP (Java)

英語、スペイン語、中国語の形態素解析・固有表現認識・構文解析・談話解析ツール

Apache OpenNLP (Java)

デンマーク語、ドイツ語、英語、スペイン語、オランダ語、ポルトガル語、スウェーデン語をサポート

LingPipe (Java)

英語（品詞付与・固有表現抽出）・中国語（単語分割）のモデル

18

多言語形態素解析のためのタグ仕様とコーパス

A Universal Part-of-Speech Tagset, Petrov

et al., LREC 2012.

22言語: 英語、中国語、日本語、韓国語、etc

多言語・言語をまたいだ構文解析の研究開発のために、まず品詞を一貫してつけたい

日本語は日本語書き言葉均衡コーパス（BCCWJ）の短単位に準拠した単語分割

19

多言語係り受け解析のためのタグ仕様とコーパス

Universal Dependency Annotation for Multilingual Parsing, McDonald et al., ACL 2013.

ドイツ語・英語・スウェーデン語・スペイン語・フランス語・韓国語・etc

日本語 Universal Dependencies の試案, 金山ら, 言語処理学会年次大会 2015.

20

自然言語処理の要素技術は成熟期

要素技術精度

形態素解析（分かち書き） 99%

構文解析（係り受け） 90%

意味解析（述語項構造） 60%

談話解析（文を超えた関係） 30%

21

解析の流れ

文正解率にすると5割

要素技術単体での精度向上は頭打ち①アプリケーションに即した性能評価の必要②精度以外の面でのアピール

英語の言語解析も新聞記事からウェブテキストへ

Workshop on Syntactic Analysis on Non-

Canonical Language (SANCL 2012)

Google English Web Treebank (2012)

ウェブテキスト（ブログ、ニュースグループ、メール、リビュー、QA ）に形態素・構文（係り受け）情報をタグづけ

22

ウェブテキストも、より難しいユーザ生成型のテキスト解析へ

Tweet NLP（英語のみ）http://www.ark.cs.cmu.edu/TweetNLP/

Twokenizer: 形態素解析

Tweeboparser: 係り受け解析

Tweebank: Twitter コーパス

Twitter Word Clusters:

単語クラスタ

23

母語話者が書いた文法的に正しいテキストから、言語学習者のテキストへ

2011年前後から毎年のように英語学習者の作文の文法誤り訂正共通タスクが開催

Helping Our Own (HOO) 2011, 2012

CoNLL 2013, 2014

英語学習者コーパスも多数リリース

NUS Corpus of Learner English

Lang-8 Learner Corpora

24

固有表現認識・語義曖昧性解消から entity linking へ

固有表現認識

固有表現の箇所を同定

entity linking

固有表現が何を指すか曖昧性解消

Wikify (Wikification)

25

安倍首相が事実誤認を認め、遺憾を表明した。

本日のまとめ

深層学習が言語処理に与えるインパクト

構文解析から意味解析まで end-to-end

マルチモーダル（画像・音声・言語）処理

テキスト生成が今後爆発的に普及しそう


言語非依存な手法の検討と問題の分析

頑健な解析手法の模索

ウェブの登場による古くて新しい問題設定26

Engineering

Recruit Technologies Open Lab #01 自然言語処理の新展開