28
形態習得研究 形態習得研究 形態習得研究 形態習得研究 サグ サグ サグ サグ

NagoyaR #10 形態素習得研究とリサンプリング

Embed Size (px)

DESCRIPTION

名古屋を中心として活動する統計環境Rに関する勉強会,NagoyaRの第10回勉強会における草薙邦広(名古屋大学大学院)の発表資料です。

Citation preview

Page 1: NagoyaR #10 形態素習得研究とリサンプリング

形態素習得研究形態素習得研究形態素習得研究形態素習得研究ととととリサンプリングリサンプリングリサンプリングリサンプリング

Page 2: NagoyaR #10 形態素習得研究とリサンプリング

草薙邦広草薙邦広名古屋大学大学院

[email protected]. #10NagoyaR. #10

2013/7/27

Page 3: NagoyaR #10 形態素習得研究とリサンプリング

形態素習得研究

• 自然順序仮説– 外国語学習者が習得す

る形態素には固定的な(普遍的)順序がある

• 母語によらない

• 学習の順序によらない

–S. Krashenhttp://unt.unice.fr/uoh/learn_teach_FL/aff

iche_theorie.php?id_theoricien=42

Page 4: NagoyaR #10 形態素習得研究とリサンプリング

形態素習得研究

http://www.danielcraig.co

m/category/linguistics-2/

Page 5: NagoyaR #10 形態素習得研究とリサンプリング

形態素習得研究

• 今日的な見方––タスクの影響(Larsen-freeman, 1975)

–母語の影響の強さ(Luk & Shirai, 2009)

– しかし項目自体が持つ言語的特性の影響は確かにある(Goldshneider & DeKeyserによるメタ分析など)DeKeyserによるメタ分析など)

–電子媒体による大規模な言語資料を作成し,計量的な分析をする方向へ

Page 6: NagoyaR #10 形態素習得研究とリサンプリング

形態素習得研究

• 形態素習得研究の評価–1970年代から現在まで,応用言語学,

第二言語習得研究を支えた理論的柱であった

–主張自体の真偽に関わらずその功績が–主張自体の真偽に関わらずその功績が絶大

Page 7: NagoyaR #10 形態素習得研究とリサンプリング

形態素習得研究

• しかし,その手法といえば…– Group Score Method (GSM)

• 「グループにおける」義務的文脈(使わなければならない状況)と正用率(正しく使えた回数)の比率

• 重み付けをする場合もある• Dulay & Burt(1974)など

– もちろんその後沢山の亜種が派生– もちろんその後沢山の亜種が派生• GMS… • 計算方法や誘出方法もまた問題であった(Rusansky,

1976)

Page 8: NagoyaR #10 形態素習得研究とリサンプリング

形態素習得研究

進行形 過去形 冠詞

正用 義務的文脈 正用 義務的文脈 正用 義務的文脈

Aさん 3 4 13 40 50 140

Bさん 3 6 14 43 32 103

Cさん 3 4 14 65 31 180

Dさん 1 2 5 40 120 201

合計 10 16 54 188 233 624

比率 .63 .29 .37

順位 1 3 2

Page 9: NagoyaR #10 形態素習得研究とリサンプリング

http://matome.naver.jp/odai/2136223288290

780701/2136223522491514403

Page 10: NagoyaR #10 形態素習得研究とリサンプリング

形態素習得研究

• 時代を感じるところ• 時代 感–全然分母の違う比率の比較–外れ値(個人の特性)の影響–分析や尺度におけるばらつきや信頼性を

「解釈が容易なかたち」で示す方法がな「解釈が容易なかたち」で示す方法がない

Page 11: NagoyaR #10 形態素習得研究とリサンプリング

そこで!そこで!そこで!そこで!そこで!そこで!そこで!そこで!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!

Page 12: NagoyaR #10 形態素習得研究とリサンプリング

• 問題の解決–全然分母の違う比率の比較

• →まあとりあえず逆正弦変換でも• →まあとりあえず逆正弦変換でも

–外れ値(個人の特性)の影響–分析や尺度におけるばらつきや信頼性を

「解釈が容易なかたち」で示す方法がないい• →リサンプリングのまね事をしよう!

Page 13: NagoyaR #10 形態素習得研究とリサンプリング

リサンプリング

• 何?–リサンプリング/再標本化

• 手持ちの標本から再度,下位の標本を複数作り出すこと,またはその過程を用いる統計的検定,パラミター推定,モデルの妥当化当化

• ブートストラップ• ジャックナイフ

Page 14: NagoyaR #10 形態素習得研究とリサンプリング

リサンプリング

• なんでそんなことするの?–手持ちの標本からリサンプリングを繰り

返して得られる統計量(平均値や分散)は,母集団からサンプリングを繰り返したものにより近似するだろう

–確率分布に依存せず(未知の場合の–確率分布に依存せず(未知の場合の時などに)に母集団の性質に見通しをつけられる

Page 15: NagoyaR #10 形態素習得研究とリサンプリング

簡単簡単簡単簡単なななな例例例例

Page 16: NagoyaR #10 形態素習得研究とリサンプリング

英語学習者の

母集団

A B C

AB

A B C

A B D

A C D

CD B C D

Page 17: NagoyaR #10 形態素習得研究とリサンプリング

進行形 過去形 冠詞

正用 義務的文脈 正用 義務的文脈 正用 義務的文脈

Aさん 3 4 13 40 50 140

Bさん 3 6 14 43 32 103

Cさん 3 4 14 65 31 180

Dさん 1 2 5 40 120 201

合計 10 16 54 188 233 624

比率 .63 .29 .37

順位 1 3 2

Page 18: NagoyaR #10 形態素習得研究とリサンプリング

進行形 過去形 冠詞

正用 義務的文脈 正用 義務的文脈 正用 義務的文脈

1 Aさん 3 4 13 40 50 140Bさん 3 6 14 43 32 103Cさん 3 4 14 65 31 180合計 9 14 41 148 113 423比率 0.64 0.28 0.27 順位 1 2 3順位 1 2 3

2 Aさん 3 4 13 40 50 140Bさん 3 6 14 43 32 103Dさん 1 2 5 40 120 201合計 7 12 32 123 202 444比率 0.58 0.26 0.45 順位 1 3 2

3 Aさん 3 4 13 40 50 140Cさん 3 4 14 65 31 180Dさん 1 2 5 40 120 201

7 10 32 145 201 521合計 7 10 32 145 201 521比率 0.70 0.22 0.39 順位 1 3 2

4 Bさん 3 6 14 43 32 103Cさん 3 4 14 65 31 180Dさん 1 2 5 40 120 201合計 7 12 33 148 183 484比率 0.58 0.22 0.38 順位 1 3 2

Page 19: NagoyaR #10 形態素習得研究とリサンプリング

55

進行形 過去形 冠詞

3540

45501 53.30 31.76 31.12

2 49.80 30.67 42.42

3 56.79 28.02 38.40

4 49.80 28.18 37.94

M 52.42 29.66 37.47

30進進進 過過進 冠冠

SD 3.35 1.85 4.69

MとSDはあくまで便宜的に。

Page 20: NagoyaR #10 形態素習得研究とリサンプリング

リサンプリング

• 形態素習得研究における研究法上• 形態素習得研究における研究法上の利点– 著しくデータを歪める個人の影響を緩和できる(サン

プリングエラー緩和)

– 母集団における正用率を区間推定できる(そんなものが理論的にあるとは限らないけども)のが理論的にあるとは限らないけども)

Page 21: NagoyaR #10 形態素習得研究とリサンプリング

RRRRでやろう!でやろう!でやろう!でやろう!

Page 22: NagoyaR #10 形態素習得研究とリサンプリング

ソース

rGSM <- function(x, n.boot, n.sub){

meany = numeric(0)for(i in 1:n.boot){

subs <- x[sample(nrow(x),n.sub,replace=TRUE),]y[i] <-(c(57.29578*(asin(sqrt((sum(subs[,1])/sum(subs[,2])))))))

meany[i] <-mean(y)}par(mfrow=c(1,3))par(mfrow=c(1,3))

boxplot(y, ylab="score") plot(meany, xlab="", ylab="score")hist(y, ylab="frequency", xlab="score", main="")

list("summary"=summary(y),"95%CI"=quantile(y,p=c(0.025,0.975)))}

Page 23: NagoyaR #10 形態素習得研究とリサンプリング

使い方

• データの読み込み• データ 読 込– x <- matrix(c(3,3,3,1,1,6,4,2), 4, 2 )– 必ずデータは二列– rGSM(a, b, c)

• aは,二列のデータ

進行形

正用 義務的文脈

Aさん 3 4

Bさん 3 6

• bは繰り返しの回数• cは標本の大きさ(重複有り)• 逆正弦変換をする

Cさん 3 4

Dさん 1 2

Page 24: NagoyaR #10 形態素習得研究とリサンプリング

使い方

• 例(重複4個を1,000施行)• 例

Page 25: NagoyaR #10 形態素習得研究とリサンプリング

使い方

• 同時に図示も!• 同時に図示も!31

3233

3435

scor

e

31.2

31.4

31.6

31.8

scor

e

freq

uenc

y

1000

1500

2000

2829

30

0 4000 8000

30.6

30.8

31.0

score

28 30 32 34

050

0

Page 26: NagoyaR #10 形態素習得研究とリサンプリング

これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!

Page 27: NagoyaR #10 形態素習得研究とリサンプリング

展望

• 順序だけのものよりも遥かに豊富な• 順序 遥 豊富な情報量

• 今日的な学習者コーパスを用いた研究との組み合わせ研究との組み合わせ

Page 28: NagoyaR #10 形態素習得研究とリサンプリング

草薙邦広草薙邦広名古屋大学大学院

[email protected]@nagoya-u.jp