40
WritingMaetriX Corpus Project 石井雄隆 早稲田大学 大学総合研究センター [email protected]

2015LETシンポジウム コーパス構築について

Embed Size (px)

Citation preview

WritingMaetriX Corpus Project

石井雄隆

早稲田大学

大学総合研究センター

[email protected]

内容

• 本プロジェクトの背景

• 学習者コーパス概観

• コーパスデザインについて

2

社会的背景

• 社会の高度情報化・情報発信の低コスト化

– 大量のデータが常に生成されている

• 記憶媒体の大容量化・通信の高速化

– 膨大なデータの蓄積

⇒整理されていない膨大なデータ

3

データマイニング (Adriaans & Zantinge, 1998)

• 大量のデータの中から規則性や関連性など意味あるパターンを自動的に抽出する手法

• 従来,データ解析は多変量解析などの統計的手法が主流であったが,1990 年代の中頃,人工知能の分野におけるルールの自動生成の研究が行われたことがデータマイニングの発端

4

高等教育の現状

• Romero and Ventura (2013)は、「教育機関が直面する一つの大きな課題は,急速な教育データの増加とその管理上の意思決定の質を改善するためのデータの使用である」ということを指摘している。

5

エデュケーショナルデータマイニング

• エデュケーショナルデータマイニング(≒Learning Analytics and Knowledge; LAK)が近年,注目を集めている。

→教育における問題を処理するために,教育環境から得られる特別なデータ集合に対してデータマイニング技術を適用する (Romero & Ventura, 2013)

6

教育データの特性

• 異なる情報源(システム)から、学習者の活動の膨大な量のデータが提供される

• 全ての学生が活動や演習などを必ずしも完了していないため、不完全なデータが存在する

• データの粒度の異なる多様なデータがある

– 性別・アンケート・テスト得点etc…

7

なぜデータマイニングを用いるのか

• 統計解析より,大量のデータが扱える。

• 実用性を重視し、データ解析の探索的側面を強調

• 欠損値などを含む不完全なデータに対し頑健な分析ができる。

→統計解析にも欠損値を扱う方法は存在するが,データマイニング手法の方がより頑健であることが指摘されている。

8

エデュケーショナルデータマイニングと関連する主な領域

(Romero & Ventura, 2013)

9

エデュケーショナルデータマイニングにより可能になること

(Bousbia & Belamri, 2013)

• 学習者モデリング

– 知識、スキル、モチベーション、満足度、メタ認知、態度、学習の進捗状況などの詳細な情報が組み込まれたモデル

• 学習者の成績や学習成果の予測

• 適応的な情報推薦

• 学習者の行動解析

– 個別指導、適応、パーソナライゼーションなど

• 学生に関するリアルタイムデータの視覚化 10

エデュケーショナルデータマイニングのユーザー別目的

11

<教育者> -学習者の学習プロセスを理解し、教育方法に反映 -教育のパフォーマンスを向上 -学習活動の認知的、行動的側面の理解 <学習者>

-状況に応じた学習者支援 -学習者に適したフィードバックや情報推薦の提供 -学習効果の増大

<管理者> 教育資源を配分する最良の方法を評価するため

エデュケーショナルデータマイニングの研究事例

データ 手法 目的

Romero, Romero, Luna & Ventura (2010)

Webログデータ アソシエーション・ルール・マイニング

成績とLMS上の活動との間の関係性と影響を評価

Krüger, Merceron & Wolf (2010)

練習問題の取り組みに関するログ

アソシエーション・ルール・マイニング

学習者が学習資源をどのように使用したか解析

Peckham & McCalla (2012)

ログデータ K-means法 分散分析

読解力のタスクにおける学習者の行動パターンを同定

He (2013) 操作ログ テキストマイニング

学習者の操作の調査

12

本プロジェクトの意義

• 学習ログ・学習履歴を活用した新たな教育手法の開発

• データマイニングを活用した外国語教育研究の取り組み

Writing MaetriX Corpus Project

• WMXに基づくコーパス構築計画

– 既存の学習者コーパスは,主に学習者のライティング・プ

ロダクトを対象としたものであり,ライティング・プロセ

スに十分な焦点を当ててきたとはいえない。

– WMXで記録した学習者の産出過程のデータを大量に蓄積す

ることで,母語別・習熟度別の学習者のライティング・プ

ロセスを横断的・縦断的に分析することが可能になる。そ

こで,既存の学習者コーパスの構築手順に則りながら,

Writing MaetriX Corpus Projectの概略を説明する。

14

背景

• これまでのライティングプロセス

研究

• 刺激再生法

• 思考発話法

15

思考発話法 (Bowles, 2010)

• L1 writing

• Comparing L1 and L2 writing strategies

• The role of the L1 in L2 writing

16

思考発話法の問題点 (内田, 1986)

• 思考発話法は、タスクの遂行に干渉。

• 作文課題のような言語産出に関するタスクの場合は、思考発話における言語産出と競合しがちであると指摘。

17

背景

• タスクプロセス研究の近年の動向

• Révész (2013)

–Eye-tracking

–Keystroke Logging

18

学習者コーパス概観(書き言葉)

• International Corpus of Learner English (ICLE)

• Japanese EFL Learner (JEFLL) Corpus

• International Corpus of Crosslinguistic

Interlanguage (ICCI)

• Nagoya Interlanguage Corpus of English (NICE)

• International Corpus Network of Asian Learners

of English (ICNALE)

19

学習者コーパス概観(話し言葉)

• Louvain International Database of Spoken

English Interlanguage (LINDSEI)

• NICT-JLE Corpus

20

学習者コーパスの可能性 (石川, 2008, p. 201)

• 「学習者コーパスは,コーパス言語学の中では比較的新しい分野であるが,今後,言語教育への貢献が最も大きく期待されている分野でもある。」

21

学習者コーパス研究の必要性 (投野, 2013, pp. 13-14)

• 「学習者コーパスの研究成果がSLA研究の分野に大きなインパクトを与えているとはまだ言いがたい。」

• 「SLA研究者が使ってみたいと思うようなデータ収集の方法を採用するなど,コーパス設計に一段と工夫が必要。」

• 「学習者コーパス研究はまだ分野的にそこまで成熟していない」

22

石井 (2014)

• 『英語コーパス研究』1号 (1994)-20号 (2013)掲載の計184本を多角的に調査。

• 日本人英語学習者コーパスの利用は10%に満たない。

23

これまでの学習者コーパス研究

• 既存の学習コーパスはプロダクトに焦点を当てており、プロセスは調査することができない。

–コーパスの内的多様性に留意

すべき (McEnery & Hardie, 2012)

–データ収集上の制限 (投野, 2013) 24

コーパスデザインについて

目標言語 タスク 学習者

モード データ採取 内的/認知的

[書き言葉 / 話し言葉] [横断的 / 縦断的] [年齢 / 学習スタイル]

ジャンル 誘出 内的・情意的

[物語 / エッセイ / など] [自発的 / 準備あり] [動機付け / 態度]

文体 参考図書 母語背景

[叙事体 / 論説体] [辞書 / 原文 / など] [日本語 / 中国語 / など]

トピック 時間制限 L2学習環境

[一般 / 娯楽 / など] [あり / なし / 宿題] [ESL/EFL] [学校レベル]

L2習熟度

[標準テスト得点]

(投野, 2013, p. 6) 25

目標言語

• モード:書き言葉

• ジャンル:argumentative

26

目標言語

• トピック:

1. “It is important for college students

to have a part time job.”

2. “Smoking should be completely

banned at all the restaurants in the

country.”

3. School Education

27

タスク

• データ採取:横断的・縦断的

• 参考図書:なし

• 時間制限:あり(20-60分)

28

学習者

1. 性別

2. 年齢

3. 大学名・専攻・学年

4. 資格(英語テストのスコア)の取得状況

5. 英語学習歴

6. 海外滞在歴

7. 英語の使用頻度(5段階評価)

8. 作文を書くことに対する自信度(5段階評

価)

29

タスク遂行に関する主観的困難度 Ishikawa (2011)

• concentration

• this task required concentration. / this task did not require concentration

• time pressure

• I did not feel time pressure during task performance. / I felt time pressure during task performance

• anxiety

• this task made me anxious. / this task did not make me anxious

• stress

• I felt frustrated during task performance. / I did not feel frustrated during task performance

• difficulty

• this task was easy. / this task was difficult

• interest

• this task was interesting. / this task was difficult

• ability

• I did not do this task well. / I did this task very well

• motivation

• I want to do tasks like this. / I don’t want to do tasks like this

30

学習者

• ライティングストラテジーに関する質問紙

以下の4つの観点から構成。

-Global Planning (Passage Level)

-Local Planning (Word/Phrase/Sentence Level)

-Review/Revision

-Avoidance

(Yamanishi, 2009)

31

Global Planning (Passage Level)

• はじめに大まかに書いて,後で細かな修正をしながら書いた。

• 内容がまとまるように文の順番を考えながら書いた。 • 内容をまとめるための表現を考えながら書いた。 • 表現に一貫性があるようにして書いた。 • 物語調で書こうとした。 • 日本語で考えを整理してから,英語で書いた。 • 課題で何が要求されているかを考えながら書いた。 • 課題の趣旨を読者に伝えるように書いた。 • 課題内容をよく理解してから書いた。 • 結び(文章のオチ)の表現に気を遣って書いた。

32

Local Planning (Word/Phrase/Sentence Level) • 冠詞や単数形や複数形に注意しながら書いた。 • 語と語の組み合わせ(イディオムなど)を考えながら

書いた。 • 思いついた英語の表現が日本語の意味にあっているか

考えながら書いた。 • 思いついた複数の表現から,最もふさわしい表現を選

びながら書いた。 • 次にどのような内容を書こうか考えながら書いた。 • 書きやすい表現を使えるように,書く内容を調整した。 • 定型的な表現(決まった言い回し)を気にしながら書

いた。

33

Review/Revision

• 課題を見直して,書いた内容を修正した。 • 課題を見直して,足りない情報を書き足した。 • 書いた内容を見直して,表現が簡潔になるように修正

した。 • 書いた内容を見直して,全体的な表現(文章の構成な

ど)を修正した。 • 書いた内容を見直して,足りない情報を付加した。 • 書いた内容を見直して,内容のまとまりが良くなるよ

うに修正した。 • 書いた内容を見直して,不要な情報を削除した。 • 書いた内容を見直して,部分的な表現(文法,つづり

など)を修正した。

34

Avoidance

• どのように書こうか考えたが,あきらめて作文を終了した。 • 書いている途中に違和感を覚えたが,そのまま書き進めた。 • 書きたい内容はあったが,表現が思い浮かばなかったので書

かなかった。 • 書きにくそうな箇所は書かなかった。 • 日本語では書けても英語で表現するのが難しい内容は書かな

かった。 • 書き足りない内容があったが,書くと大変そうだったから書

かなかった。 • 書こうとした内容はあったが,ぼろを出さないように書かな

かった。 • 文のつながりがおかしいと感じた箇所があったが,気にしな

いようにした。

35

現在のデータ収集状況

• プロセス

• プロダクト

• 学習者の属性情報

• 342名のデータを収集

データ収集プロセス

• 3クラス(人間科学・熟達度低、人文(文化)学・熟達度上の中、医学・熟達度中の中)で実施

• 執筆時間は、20分~40分を目安に最大60分

• 執筆語数は、200~300語を目安に、書きたい内容に対して文量が足りなければ300語以上(=可能な限り多く)書くことも可

• 辞書やウェブサイト等の使用は禁

• 授業内で実施しており監督者有り

本コーパスにより可能になること

• 母語別・習熟度別の学習者のライティン

グの時系列分析・誤りの質的分析など

• ライティング・プロセスとライティング・プロダクトの関係性や相互作用の解明

38

参考文献 • 石井卓巳(2014)「日本の英語コーパス言語学の研究課題・手法の変遷:

『英語コーパス研究』掲載論文を用いた基礎的検討」LET関西支部メソドロジー研究部会2014

年度第1回研究会. 関西大学.

• 石川慎一郎(2008)『英語コーパスと言語教育:データとしてのテクスト』大修館書店.

• 内田伸子(1986)「作文の心理学 : 作文の教授理論への示唆 : 展望」『教育心理学年報』, 25,

162-177.

• 投野由紀夫(2013)「学習者コーパス研究のこれまでとこれから」投野由紀夫・杉浦正利・和

泉絵美・金子朝子 (編著)『英語学習者コーパス活用ハンドブック』大修館書店. pp.4-18.

• Adriaans, P., & Zantinge, D. (1998). Data Mining. Harlow: AddisonWesley.

• Bousbia, N., and Belamri, I. (2013). Which Contribution Does EDM Provide to

Computer-Based Learning Environments? In A. Peña-Ayala (Ed.), Educational

Data Mining Applications and Trends. Dordrecht: Springer.

• Bowles , M. A. (2010). The think-aloud controversy in second language research.

London: Routledge.

• He, W.(2013). Examining students’ online interaction in a live video streaming

environment using data mining and text mining. Computers in Human Behavior,

29(1), pp.90-102.

• Ishikawa, T. (2011). Examining the influence of intentional reasoning demands

on learner perceptions of task difficulty and L2 monologic speech. P. Robinson

(Ed.), Second Language Task Complexity: Researching the Cognition Hypothesis

of Language Learning and Performance (pp. 307-330). The Netherlands: John

Benjamins.

39

参考文献 • Krüger, A., Merceron, A., & Wolf, B. (2010). A data model to ease analysis and

mining of educational data. In M. Pechenizkiy et al. (Eds.), Proceedings of the

3rd International Conference on Educational Data Mining 2010, pp.131–140.

Eindhoven, The Netherlands: International EDM Society.

• McEnery, T., & Hardie, A. (2012). Corpus linguistics: Method, theory and practice.

Cambridge University Press.

• Peckham, T., & McCalla, G.(2012). Mining Student Behavior Patterns in Reading

Comprehension Tasks. In Proceedings of the 5th international conference on

educational data mining, pp.87–94.

• Révész, A. (2013). Exploring processes and outcomes in task-based research:

The use of mixed methods approaches. Mixed-Methods in SLA: Benefits and

Challenges. Lecture conducted from University of Barcelona, Spain.

• Romero, C., & Ventura, E. (2013). Data mining in education. Data Mining and

Knowledge Discovery, 3 (1), 12–27

• Romero, C., Romero, J. R., Luna, J. M., & Ventura, S.(2010). Mining Rare

Association Rules from e-Learning Data. In Proceeding of The Third International

Conference of Education Data Mining, pp. 171-180. Pittsburgh, USA.

• Yamanishi, H. (2009). Japanese EFL Learners’ Use of Writing Strategies: A

Questionnaire Survey. The Bulletin of the Writing Research Group, JACET Kansai

Chapter, 8, 53-64.

40