24
1 KH Coderによる英文データのKWIC検索と分析 2015 3/7 英語コーパス学会東支部ワークショップ資料より一部抜粋 樋口耕一

KH Coderによる英文データのKWIC検索と分析

  • Upload
    khcoder

  • View
    1.015

  • Download
    15

Embed Size (px)

Citation preview

Page 1: KH Coderによる英文データのKWIC検索と分析

1

KH Coderによる英文データのKWIC検索と分析

2015 3/7 英語コーパス学会東支部ワークショップ資料より一部抜粋

樋口耕一

Page 2: KH Coderによる英文データのKWIC検索と分析

2

英文データの検索と分析: LemmaとPOSの利用

Page 3: KH Coderによる英文データのKWIC検索と分析

3

英語データへの対応

平テキストを段落に分割 改行でデータを区切る

段落を文に分割 省略をあらわすピリオド等に留意しつつ分割

Lingua::Sentence(Perlモジュール)を利用

文を語に分割 「aren’t」→「are」と「n’t」

Stanford POS Taggerを利用

語のLemmatize & POS Tagging 「knows」「knew」「known」 →「know」

Stanford POS Taggerを利用

英語データ

(Toutanova et al. 2003)

Page 4: KH Coderによる英文データのKWIC検索と分析

4

Stanford POS Tagger出力例 英語データ

Word Lemma POS I I PRP do do VBP n't not RB even even RB trust trust VB myself myself PRP . . .

Word Lemma POS And and CC not not RB trusting trust VBG myself myself PRP , , , I I PRP can can MD hardly hardly RB trust trust VB Mr. Mr. NNP Smith Smith NNP . . .

“I don‘t even trust myself. And not trusting myself, I can hardly trust Mr. Smith.” (平テキスト)を入力すると:

この結果をKH Coderに読み込んでいるので、平テキストを対象に、LemmaやPOSを使った検索・集計が可能!

Page 5: KH Coderによる英文データのKWIC検索と分析

5

Penn Treebank Part of Speech tag set 1

Tag Description Tag Description CC Coordinating conjunction MD Modal

CD Cardinal number NN Noun, singular or mass

DT Determiner NNS Noun, plural EX Existential there NNP Proper noun, singular

FW Foreign word NNPS Proper noun, plural

IN Preposition or subordinating conjunction PDT Predeterminer

JJ Adjective POS Possessive ending JJR Adjective, comparative PRP Personal pronoun JJS Adjective, superlative PRP$ Possessive pronoun LS List item marker RB Adverb

これらのタグがそれぞれの語に自動的に与えられる

英語データ

Page 6: KH Coderによる英文データのKWIC検索と分析

6

Penn Treebank Part of Speech tag set 2

Tag Description Tag Description

RBR Adverb, comparative VBP Verb, non-3rd person singular present

RBS Adverb, superlative VBZ Verb, 3rd person singular present

RP Particle WDT Wh-determiner SYM Symbol WP Wh-pronoun

TO to WP$ Possessive wh-pronoun

UH Interjection WRB Wh-adverb VB Verb, base form VBD Verb, past tense VBG Verb, gerund or present participle VBN Verb, past participle KH Coder上の「品詞」ではまと

めて「Verb」と認識。 「VB」「VBD」といった個々のタグは「活用形」として読み込み。

英語データ

Page 7: KH Coderによる英文データのKWIC検索と分析

7

英語データを分析するための設定 1

① 「設定」をクリック

英語データを分析する際には、

前処理の前に以下の設定を:

A) 語の取り出し方法を「茶

筌」から「Stanford POS

Tagger」に変更

B) Stop wordsを指定

英語データ

Page 8: KH Coderによる英文データのKWIC検索と分析

8

英語データを分析するための設定 2

② 「Lemmatization」をクリック

④ 「tutorial_en」フォルダにある「stopwords_sample_en.txt」というファイルをここにドラッグ&ドロップ。 ※あるいは中身をコピー&ペーストしてもOK。

③ 「config」をクリック

⑤ 「OK」をクリック ⑥ 「OK」をクリック

英語データ

Page 9: KH Coderによる英文データのKWIC検索と分析

9

Stop Wordsについて

Stop Wordsとして指定した語は「OTHER」品詞に分類され、分析の 対象から外れる

Be動詞のような一般的な語をStop Wordsに指定して、分析から省くことができる

分析の目的や方針に応じて、Stop Wordsとして指定する語は変わりうるので注意が必要

英語データ

Page 10: KH Coderによる英文データのKWIC検索と分析

10

抽出語リスト(基本形/lemmaでカウント)

「 know 」 252回の中には、「 know (VB)」93回や「knew (VBD)」64回などが含まれる。

英語データ

Page 11: KH Coderによる英文データのKWIC検索と分析

11

KWICで語の前後の文脈を見る 1

抽出語「know」だけを指定すると、基本形だけでなく「known」「knew」なども検索。活用形として「VBN」を指定すると、「known (VBN)」だけに。

英語データ

Page 12: KH Coderによる英文データのKWIC検索と分析

12

KWICで語の前後の文脈を見る 2

前後(左右)に続く語でソート。「右1」は1つ後ろ(直後)の語、「右2」は2つ後ろの語。

英語データ

Page 13: KH Coderによる英文データのKWIC検索と分析

13

コロケーション統計 1

WordSmith Tools(Scott 2001)に倣った計算法。他にもMI・MI3・T Score・Z Score・Jaccard・Diceなどの共起指標。

英語データ

knowの前後(左5-右5)に頻出する語(共起する語)をリストアップ。

Page 14: KH Coderによる英文データのKWIC検索と分析

14

コロケーション統計 2 英語データ

knowの直後に出現することが多い名詞(Noun, ProperNoun)をリストアップ。

Page 15: KH Coderによる英文データのKWIC検索と分析

15

対応分析(上・中・下の特徴)

おおむね翻訳前の「こころ」と同様の分析結果に。

I knew , more or less , what Sensei meant , of course . But I wanted Sensei to talk more about the matter .

英語データ

Page 16: KH Coderによる英文データのKWIC検索と分析

16

コーディング(「人の死」の推移)

上・二十四 上・三十五

おおむね翻訳前の「こころ」と同様の分析結果に。

英語データ

Page 17: KH Coderによる英文データのKWIC検索と分析

17

機能語を含めての分析

Page 18: KH Coderによる英文データのKWIC検索と分析

18

機能語を含める設定

Stop Wordsを空にする

「OTHER」品詞を分析に含める

① メニューから「前処理」→「語の取捨選択」

② 「OTHER」にチェックを入れて「OK」

③ 再び前処理を実行

機能語を含めて

Page 19: KH Coderによる英文データのKWIC検索と分析

19

抽出語リスト(機能語を含む)

KH Coder上では機能語に

は「OTHER」という品詞名

が与えられがち。しかし

「品詞」は単に無視して、

「活用」(POS tag)を使え

ばよい場合が多い。

機能語を含めて

Page 20: KH Coderによる英文データのKWIC検索と分析

20

※KH Coderの「品詞」体系

hinshi_id kh_hinshi condition1 condition2

2 ProperNoun NNP 1 Noun NN 3 Foreign FW

20 PRP PRP 25 Adj JJ 30 Adv RB 35 Verb VB 40 W W

99999 HTML_TAG TAG HTML 11 TAG TAG

「config¥hinshi_stanford_en」で

設定。

POS tagが「condition1」列の

内 容 で 始 ま っ て い れ ば 、

「kh_hinshi」列の品詞となる。

上の行から順にチェックしてい

き、あてはまったら品詞決定。

いずれにもあてはまらなけれ

ば「OTHER」品詞に

カスタマイズ可能だが、必要な場合はおそらく少ない

機能語を含めて

Page 21: KH Coderによる英文データのKWIC検索と分析

21

検索例:have + be動詞 + ~ing (VBG) 1

Be動詞の直前(左1)に抽出語

「have」、直後(右1)に動詞の現在

分詞(VBG)があることを指定。

機能語を含めて

Page 22: KH Coderによる英文データのKWIC検索と分析

22

抽出語を入力しなくても、

「活用形」(POS tag)だけ

を入力して検索できる。

アイデア次第で様々な検

索が可能に!?

機能語を含めて

検索例:have + be動詞 + ~ing (VBG) 2

Page 23: KH Coderによる英文データのKWIC検索と分析

23

検索例:最上級 (JJS) +名詞 (NN) 機能語を含めて

Page 24: KH Coderによる英文データのKWIC検索と分析

24

機能語を含めた対応分析 機能語を含めて

機能語にも部(Part)ごとの特徴があらわれている