14
自自自自自自 2007(5 自自 ) 自自自自自自 自自自自自自自自自自自自自 自自自自

自然言語処理 2007(5 回目 )

  • Upload
    callum

  • View
    49

  • Download
    0

Embed Size (px)

DESCRIPTION

自然言語処理 2007(5 回目 ). 東京工科大学 コンピュータサイエンス学部 亀田弘之. 自然言語処理の概要. 文字認識 形態素解析 統語解析(構文解析) 意味解析 談話解析 状況解析 世界解析(他者理解など). 技術的に重要な項目. 文字認識→スキャナの高度化 形態素解析→データマイニング 情報検索 統語解析(構文解析) → 機械翻訳  音声対話 意味解析→(同上) 談話解析→(同上). Chasen と Juman. 日本語を対象とする形態素解析の代表的なプログラム - PowerPoint PPT Presentation

Citation preview

Page 1: 自然言語処理 2007(5 回目 )

自然言語処理 2007(5 回目 )

東京工科大学コンピュータサイエンス学部

亀田弘之

Page 2: 自然言語処理 2007(5 回目 )

自然言語処理の概要

文字認識形態素解析統語解析(構文解析)意味解析談話解析状況解析世界解析(他者理解など)

Page 3: 自然言語処理 2007(5 回目 )

技術的に重要な項目

文字認識 → スキャナの高度化形態素解析 → データマイニング

情報検索統語解析(構文解析) → 機械翻訳

 音声対話意味解析 → (同上)談話解析 → (同上)

Page 4: 自然言語処理 2007(5 回目 )

Chasenと Juman

日本語を対象とする形態素解析の代表的なプログラム

Chasenをインストールして使ってみよう。– www.vector.co.jp を通じて公開されている。

aa– WinCha というWindowsインタフェースのものもある。(今はメインテナンスされてない。)

Page 5: 自然言語処理 2007(5 回目 )

Chsenを使ってデータ処理してみよう!

各自、新聞記事、小説、ブログなどさまざまなジャンルのテキストに対して、Chasenを利用して形態素解析してみてください。(後日、レポートとして提出してもらいます。)

Page 6: 自然言語処理 2007(5 回目 )

構文解析(統語解析)

教科書の第3章以降の話をしますが、第3章は多くの人には関係ないので、実質第4章の話をします。

Page 7: 自然言語処理 2007(5 回目 )

まずは、背景にある理論から

言語理論論理学プログラミング

Page 8: 自然言語処理 2007(5 回目 )

言語理論– 形式言語 ( 言語と文法、文脈自由文法 )

論理学– 述語論理(推論、レゾリューション法)

プログラミング– 論理型プログラミング (Prolog)

Page 9: 自然言語処理 2007(5 回目 )

準備

次の文の構造を分析してみよう。

Tom broke the cup.

Page 10: 自然言語処理 2007(5 回目 )

文法

G = { Vn, Vt, σ, P }– Vn:非終端記号– Vt:終端記号– σ:開始記号– P:書き換え規則

Page 11: 自然言語処理 2007(5 回目 )

G = {Vn, Vt, σ, P}– Vn ={S, NP, VP, PrpN, V, Det, N}– Vt = {Tom, broke, the, cup}– σ =  S– P={S→NP VP, NP →PrpN, VP →V NP,

NP → Det N, PrpN → Tom, V →broke,Det →the, N→cup}

Page 12: 自然言語処理 2007(5 回目 )

Prolog の導入

Page 13: 自然言語処理 2007(5 回目 )

Prolog の動作を理解する。

Page 14: 自然言語処理 2007(5 回目 )

問題

Tom broke the big cup.の構造を分析し、この文を処理するための文法 G1を書け。また、 G1を基にPrologプログラムを作成せよ。