Upload
kusanagi-kunihiro
View
1.335
Download
2
Embed Size (px)
DESCRIPTION
名古屋を中心として活動する統計環境Rに関する勉強会,NagoyaRの第10回勉強会における草薙邦広(名古屋大学大学院)の発表資料です。
Citation preview
形態素習得研究形態素習得研究形態素習得研究形態素習得研究ととととリサンプリングリサンプリングリサンプリングリサンプリング
形態素習得研究
• 自然順序仮説– 外国語学習者が習得す
る形態素には固定的な(普遍的)順序がある
• 母語によらない
• 学習の順序によらない
–S. Krashenhttp://unt.unice.fr/uoh/learn_teach_FL/aff
iche_theorie.php?id_theoricien=42
形態素習得研究
http://www.danielcraig.co
m/category/linguistics-2/
形態素習得研究
• 今日的な見方––タスクの影響(Larsen-freeman, 1975)
–母語の影響の強さ(Luk & Shirai, 2009)
– しかし項目自体が持つ言語的特性の影響は確かにある(Goldshneider & DeKeyserによるメタ分析など)DeKeyserによるメタ分析など)
–電子媒体による大規模な言語資料を作成し,計量的な分析をする方向へ
形態素習得研究
• 形態素習得研究の評価–1970年代から現在まで,応用言語学,
第二言語習得研究を支えた理論的柱であった
–主張自体の真偽に関わらずその功績が–主張自体の真偽に関わらずその功績が絶大
形態素習得研究
• しかし,その手法といえば…– Group Score Method (GSM)
• 「グループにおける」義務的文脈(使わなければならない状況)と正用率(正しく使えた回数)の比率
• 重み付けをする場合もある• Dulay & Burt(1974)など
– もちろんその後沢山の亜種が派生– もちろんその後沢山の亜種が派生• GMS… • 計算方法や誘出方法もまた問題であった(Rusansky,
1976)
形態素習得研究
進行形 過去形 冠詞
正用 義務的文脈 正用 義務的文脈 正用 義務的文脈
Aさん 3 4 13 40 50 140
Bさん 3 6 14 43 32 103
Cさん 3 4 14 65 31 180
Dさん 1 2 5 40 120 201
合計 10 16 54 188 233 624
比率 .63 .29 .37
順位 1 3 2
http://matome.naver.jp/odai/2136223288290
780701/2136223522491514403
形態素習得研究
• 時代を感じるところ• 時代 感–全然分母の違う比率の比較–外れ値(個人の特性)の影響–分析や尺度におけるばらつきや信頼性を
「解釈が容易なかたち」で示す方法がな「解釈が容易なかたち」で示す方法がない
そこで!そこで!そこで!そこで!そこで!そこで!そこで!そこで!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!
• 問題の解決–全然分母の違う比率の比較
• →まあとりあえず逆正弦変換でも• →まあとりあえず逆正弦変換でも
–外れ値(個人の特性)の影響–分析や尺度におけるばらつきや信頼性を
「解釈が容易なかたち」で示す方法がないい• →リサンプリングのまね事をしよう!
リサンプリング
• 何?–リサンプリング/再標本化
• 手持ちの標本から再度,下位の標本を複数作り出すこと,またはその過程を用いる統計的検定,パラミター推定,モデルの妥当化当化
• ブートストラップ• ジャックナイフ
リサンプリング
• なんでそんなことするの?–手持ちの標本からリサンプリングを繰り
返して得られる統計量(平均値や分散)は,母集団からサンプリングを繰り返したものにより近似するだろう
–確率分布に依存せず(未知の場合の–確率分布に依存せず(未知の場合の時などに)に母集団の性質に見通しをつけられる
簡単簡単簡単簡単なななな例例例例
英語学習者の
母集団
A B C
AB
A B C
A B D
A C D
CD B C D
進行形 過去形 冠詞
正用 義務的文脈 正用 義務的文脈 正用 義務的文脈
Aさん 3 4 13 40 50 140
Bさん 3 6 14 43 32 103
Cさん 3 4 14 65 31 180
Dさん 1 2 5 40 120 201
合計 10 16 54 188 233 624
比率 .63 .29 .37
順位 1 3 2
進行形 過去形 冠詞
正用 義務的文脈 正用 義務的文脈 正用 義務的文脈
1 Aさん 3 4 13 40 50 140Bさん 3 6 14 43 32 103Cさん 3 4 14 65 31 180合計 9 14 41 148 113 423比率 0.64 0.28 0.27 順位 1 2 3順位 1 2 3
2 Aさん 3 4 13 40 50 140Bさん 3 6 14 43 32 103Dさん 1 2 5 40 120 201合計 7 12 32 123 202 444比率 0.58 0.26 0.45 順位 1 3 2
3 Aさん 3 4 13 40 50 140Cさん 3 4 14 65 31 180Dさん 1 2 5 40 120 201
7 10 32 145 201 521合計 7 10 32 145 201 521比率 0.70 0.22 0.39 順位 1 3 2
4 Bさん 3 6 14 43 32 103Cさん 3 4 14 65 31 180Dさん 1 2 5 40 120 201合計 7 12 33 148 183 484比率 0.58 0.22 0.38 順位 1 3 2
55
進行形 過去形 冠詞
3540
45501 53.30 31.76 31.12
2 49.80 30.67 42.42
3 56.79 28.02 38.40
4 49.80 28.18 37.94
M 52.42 29.66 37.47
30進進進 過過進 冠冠
SD 3.35 1.85 4.69
MとSDはあくまで便宜的に。
リサンプリング
• 形態素習得研究における研究法上• 形態素習得研究における研究法上の利点– 著しくデータを歪める個人の影響を緩和できる(サン
プリングエラー緩和)
– 母集団における正用率を区間推定できる(そんなものが理論的にあるとは限らないけども)のが理論的にあるとは限らないけども)
RRRRでやろう!でやろう!でやろう!でやろう!
ソース
rGSM <- function(x, n.boot, n.sub){
meany = numeric(0)for(i in 1:n.boot){
subs <- x[sample(nrow(x),n.sub,replace=TRUE),]y[i] <-(c(57.29578*(asin(sqrt((sum(subs[,1])/sum(subs[,2])))))))
meany[i] <-mean(y)}par(mfrow=c(1,3))par(mfrow=c(1,3))
boxplot(y, ylab="score") plot(meany, xlab="", ylab="score")hist(y, ylab="frequency", xlab="score", main="")
list("summary"=summary(y),"95%CI"=quantile(y,p=c(0.025,0.975)))}
使い方
• データの読み込み• データ 読 込– x <- matrix(c(3,3,3,1,1,6,4,2), 4, 2 )– 必ずデータは二列– rGSM(a, b, c)
• aは,二列のデータ
進行形
正用 義務的文脈
Aさん 3 4
Bさん 3 6
• bは繰り返しの回数• cは標本の大きさ(重複有り)• 逆正弦変換をする
Cさん 3 4
Dさん 1 2
使い方
• 例(重複4個を1,000施行)• 例
使い方
• 同時に図示も!• 同時に図示も!31
3233
3435
scor
e
31.2
31.4
31.6
31.8
scor
e
freq
uenc
y
1000
1500
2000
2829
30
0 4000 8000
30.6
30.8
31.0
score
28 30 32 34
050
0
これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!
展望
• 順序だけのものよりも遥かに豊富な• 順序 遥 豊富な情報量
• 今日的な学習者コーパスを用いた研究との組み合わせ研究との組み合わせ
草薙邦広草薙邦広名古屋大学大学院
[email protected]@nagoya-u.jp