40
効効効効効効効効効効効効 効効効効効効効効効効効効効効 -- 松松松松 松松松松松 () 松松松松松松松松松松松松松松松松松松松松松松松松 松松 松松松松松松松松松 松 12 松松松松松松 2014 松 4 松 19 松 松松松松松松松松 ()

効率的な語彙学習順序とは -コーパスに基づくアプローチ-

  • Upload
    mairi

  • View
    40

  • Download
    3

Embed Size (px)

DESCRIPTION

効率的な語彙学習順序とは -コーパスに基づくアプローチ-. 松下達彦(東京大学) 学習者コーパスから見た日本語習得の難易度に 基づく 語彙 ・文法シラバスの 構築 第 12 回 共同 研究会 2014 年 4 月 19 日(国立国語研究所). 概要. 「効率的」とは 理論的 背景 (1) 読解力に占める語彙力 理論的 背景 (2) 既知語率 と読解レベルの関係 共通ニーズ抽出の必要 領域特徴語の 抽出 : (1 ) 学術共通語彙、   (2) 限定学術領域語彙、 (3) 文芸語彙 テキストカバー 効率( TCE) の提案 ジャンルによる効率的語彙学習順序の違い - PowerPoint PPT Presentation

Citation preview

Page 1: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

効率的な語彙学習順序とは-コーパスに基づくアプローチ-松下達彦(東京大学)

学習者コーパスから見た日本語習得の難易度に基づく語彙・文法シラバスの構築第 12 回共同研究会2014 年 4 月 19 日(国立国語研究所)

Page 2: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

概要1. 「効率的」とは2. 理論的背景 (1) 読解力に占める語彙力3. 理論的背景 (2) 既知語率と読解レベルの関係4. 共通ニーズ抽出の必要5. 領域特徴語の抽出: (1) 学術共通語彙、  

(2) 限定学術領域語彙、 (3) 文芸語彙6. テキストカバー効率( TCE) の提案7. ジャンルによる効率的語彙学習順序の違い8. ニーズと「学習難易度」の視点9. まとめ

Page 3: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

1.「効率的」とは? 「学習の難易度」は・・・ここでは無視 どうすればより少ない語彙学習量で「読める(聞ける)」ようになるか 受容的活動(「聞く」「読む」)では難しいから無視するというわけにはいかない 読解(聴解)における既知語のテキストカバー率をできるだけ早く上げる 仮定:語彙習得はおおよそ頻度順に進む一般的に・・・ 形式においては高頻度の語/字は易しいものが多い。が・・・ 意味・用法においては高頻度であるほど多義的・多用法の語・字が多い

Page 4: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

2.理論的背景(1) 読解力に占める語彙力語彙力が読解力に占める割合

英語では・・・約3割程度か( Bernhardt, 2005 )

日本語ではもう少し高そう 漢字があるから?55%     Koda(1989) より計算47%    小森ほか (2004)40% 以上 野口 (2008) より計算

理論的には、読解も聴解も同じただし、 読解はリライトがしやすいが、聴解は難しい

Page 5: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

3.理論的背景(2) 既知語率と読解レベルの関係 既知語の割合 Text coverage ( テキストカバー率 ) by known words 英語では・・・既知語率 95%と 98%が一つの目安

95%:テキストがある程度理解できるレベル 98%:自力で読解を楽しめるレベル( Hu & Nation, 2000; Laufer & Ravenhorst-Kalovski, 2010など)

日本語では・・・もう少し低い既知語率でよいのでは? 96%程度に閾値? (小森ほか 2004) 意味的透明度の高い多数の漢字語の存在 ( Matsushita, 2011a =後述)

Page 6: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

媒体による必要語数のちがい 日本語能力検定試験でいう初級・中級・上級とは? 英語教育では? ( Nation, 2006) BCCWJ ( 2009 年モニター版、書籍と Yahoo 知恵袋)では?

Yahoo 知恵袋を読むのに、約 5300 語で 95 %のカバー率 書籍等を含めて平均的に 9500 語で 95 %  ・・・ 95 %では、自力で読みこなすには少し足りないか(?)

Required Number of Words to Attain Different Levels of Text Coverage in Different Media (Assumed Known Words Included)

Number of Assumed Known Words/Text Coverage

Assumed KnownWords 60% 70% 80% 90% 91% 92% 93% 94% 95% 96% 97% 98% 99%

Magazines (NLRI, 2006) 14,728 (4.1%) 163 551 1,673 5,466 6,295 7,310 8,568 10,153 12,164 14,894 18,661 23,989 34,013Newspapers (Amano & Kondo, 2000) 150,859 (5.5%) 195 648 1,752 5,332 6,103 7,038 8,194 9,666 11,607 14,257 18,112 24,360 37,112

Books (NINJAL, 2009) 28,307 (2.2%) 93 335 1,168 4,159 4,829 5,650 6,665 7,946 9,625 11,914 15,210 20,399 30,415Internet-forum sites (IF) (NINJAL, 2009) 9,117 (1.0%) 59 177 599 2,279 2,646 3,091 3,642 4,351 5,291 6,578 8,483 11,593 17,777

VDRJ (Books and IF) (NINJAL, 2009) 30,683 (2.0%) 88 314 1,125 4,043 4,700 5,505 6,507 7,776 9,446 11,731 15,031 20,256 30,447* Function words and Assumed Known Words (most proper names and hesitations etc.) are all included in the coverage.* Assumed Known Words include hesitations, proper names (excluding place names etc. with the ratio of 0.007% or more) and so on. * The coverage includes the Assumed Known Words, but the number of words does NOT include it. That is, the numbers shows the number of words which need to learn to attain the text

coverage.

Page 7: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

どの程度の語彙量で生教材が読めるか(リンクあり) 266 237 204 187 195 222 187 158 142 156 145 161 131 152 129ID Group Score 1K 2K 3K 4K 5K 6K 7K 8K 9K 10K 11K 12K 13K 14K 15K701 G3 146 10 10 10 10 10 10 10 10 10 10 10 10 8 9 9702 G3 140 10 10 10 9 10 10 10 9 9 9 9 10 7 8 10703 G3 138 10 10 10 10 10 10 10 10 9 8 6 10 8 8 9704 G3 130 10 10 10 9 8 10 10 7 7 8 8 9 7 9 8705 G3 127 9 10 10 10 9 10 9 8 7 8 9 8 6 8 6706 G3 125 10 10 8 8 9 10 9 8 8 10 7 8 5 8 7707 G2 123 10 10 9 9 9 9 9 8 5 8 7 6 6 9 9708 G2 118 10 10 10 9 10 10 7 7 6 8 6 7 6 5 7709 G1 118 9 9 8 8 9 10 8 9 8 7 7 8 6 7 5710 G1 118 10 9 7 8 9 9 9 8 7 7 6 7 8 7 7711 G2 109 10 9 8 9 6 9 8 6 5 6 6 8 5 7 7712 G2 100 10 9 7 7 8 9 8 6 6 6 3 6 5 6 4713 G2 94 10 8 9 8 4 9 6 7 4 8 4 4 3 6 4714 G2 93 10 10 8 5 6 8 4 6 3 5 6 7 6 5 4715 G2 83 10 8 8 7 5 6 5 6 4 6 5 3 3 4 3716 G2 70 10 8 5 5 7 7 6 2 3 3 3 4 4 2 1717 G1 60 10 8 5 3 5 6 6 3 3 3 3 2 1 1 1718 G2 59 10 7 6 2 5 5 5 2 5 1 2 4 1 3 1719 G2 53 9 7 7 5 7 8 4 1 1 0 0 2 1 1 0720 G2 52 10 9 3 2 3 4 2 1 1 1 2 3 3 4 4721 G2 36 9 4 3 1 3 5 2 1 2 1 1 2 1 1 0722 G1 23 9 2 2 1 2 2 2 0 0 0 0 0 0 2 1

Page 8: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

理解語彙量による直観的、暫定的なレベル分け(対象は日本の大学で学ぶ大学生で、文法、会話等の能力はここでは無視する。語数は書きことばの理解語数と考える。) 初級:「上位約1500語+α」で計3000語程度まで 中級:「上位約1500語+α」で計12000語程度まで ・・・非常に広い 上級:「上位約7000語+α」で計12000語以上     ・・・生教材(に近いテキスト)が使えるレベル 母語話者・・・研究予定     (従来言われている語数よりも少ないことを予想)計数単位の問題:「富士山」の「山」や「大教室」の「大」を           どう数えるか?          ⇒「語」に準じるものとして数えるのが現実的            “学習負担の原則”

Page 9: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

4.共通ニーズ抽出の必要個別のニーズに応じて、ニーズ領域の頻度順に語彙学習をするのが一番効率的しかし、クラス授業では・・・普通の機関では個別対応は難しい ニーズが明確でない学習者も多い ニーズが幅広い学習者も多い(例:ジャーナリスト志望) 大学では一般に、学術ニーズは少しずつ狭まっていく  教養 文系  社会科学 経済学

Page 10: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

5.領域特徴語の抽出使用したテキストと計数単位『現代日本語書き言葉均衡コーパス』 (BCCWJ) モニター公開データ( 2009 年版)(国立国語研究所 2009 )

書籍部分(約 2800万語)+ Yahoo 知恵袋(約500万語)合計約 3300万語

計数単位(語の区切り): UniDic の短単位 (ほぼ形態素レベル) 形態素解析器: MeCab (工藤 2006 ) 解析用辞書: UniDic (伝ほか 2009 ) ( UniDic の出力を AntWordProfiler で使用するため,  テキストエディタ上でマクロを作成して加工)

Page 11: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

特徴語の抽出方法 AntConc (Anthony, 2007) の keyness 機能を利用 特徴語の抽出には

対象コーパス参照コーパス の二つが必要(対象語彙が含まれる割合を比較)

対数尤度比 (log-likelihood ratio) (Dunning, 1993)

(正規分布などの)特定の分布を要求しない テキストの大きさが異なる場合にも比較可能な値を返す(Leech, Rayson, & Wilson, 2001)

適度な割合で特徴語を抽出 (Chujo & Utiyama, 2006)

方法の詳細は松下( 2011a; 2012b) を参照

Page 12: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

下位コーパス分野別の異なり語数と延べ語数 BCCWJ 2009 版(書籍+「Yahoo知恵袋」)

異なり語数 延べ語数 異なり語数 延べ語数 異なり語数 延べ語数言語・言語学 21252 403305 7831 102504 23708 505809歴史 49700 2096004 11835 138139 51514 2234143民族学・文化人類学 39759 1083009 3040 19666 40150 1102675哲学、宗教 36253 1503013 9269 125917 38229 1628930芸術 35501 967809 5042 39744 36177 1007553文学 68439 8251999 5592 36852 68915 8288851人文・芸術(その他) 46304 1973098 683 3414 46337 1976512

小計 16278237 466236 16744473政治学 26299 920841 8814 115166 27900 1036007法学 16502 511059 10074 333946 19542 845005経済学 20015 684404 12534 367555 23525 1051959経営学、商学 22087 846432 10788 310716 24489 1157148社会学 30362 1318930 12960 333772 33008 1652702 福祉、労働、ジェンダーも含める。

教育学 20157 621050 10417 262063 22675 883113 教科教育法もすべてここに含める。

社会科学(その他) 18993 424164 4114 36168 19652 460332 運輸、通信、心理学、時事問題も含める。小計 5326880 1759386 7086266

数学 3497 40397 1959 19472 4352 59869物理学 2368 25239 1280 9430 2920 34669

天文学・地球惑星科学 8181 101565 2583 21765 9035 123330化学、金属・鉱山 4682 37469 2553 23275 6017 60744工学(建築・土木) 16242 307617 7662 114099 18443 421716工学(機械、電気、海洋・船舶) 12993 195762 5495 72049 14820 267811理工系自然科学(その他) 18530 399470 8426 145175 21018 544645 情報工学、製造工業、生活科学(一部)、情報科学、図書館学など

小計 1107519 405265 1512784生物学 14680 262283 4064 41071 15672 303354農学 14932 238989 3376 28584 15860 267573 林学、水産学、畜産学・獣医学を含む。

薬学 3610 24703 1103 10197 4017 34900医学 16657 485896 5955 82800 17961 568696歯学 1740 11551 874 3814 2174 15365看護学 2348 19255 2491 23505 3744 42760生物系自然科学(その他) 28254 943822 6749 74567 29490 1018389 スポーツ、衛生学、生活科学(一部)、環境 など

小計 1986499 264538 2251037YahooインターネットQ&Aフォーラム(「 知恵袋」)YahooインターネットQ&Aフォーラム(「 知恵袋」) 54215 5224852 54215 5224852

合計 29923987 46996 2895425 144231 32819412

理工

生物・医学

文系

理系

備考

人文

社会

一般テキスト 専門テキスト 合計学術領域 学術分野

Page 13: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

テストコーパス(特徴語抽出の際に使用していないコーパス)• (MC) 会話:名大会話コーパス(日本語母語話者同士の雑談),約 113万語• (BS) 一般書:『現代日本語書き言葉均衡コーパス』 2009 年モニター版(国立国語研究所 2009 )「ベストセラー」部分(文芸テキスト数が 53 %,専門テキストなし),約 230万語• (PC) 一般書:「日英対訳文対応付けデータ」 (内山・高橋 2003) の日本語部分(文芸書,エッセイなど), 210万語• (JN) 新聞:日英新聞記事対応付けデータ (JENAAD) (Utiyama & Isahara, 2003)の日本語部分( 1989-2001 の「読売新聞」記事)約 568万語• (IS) 人文・社会系専門テキスト:新屋・松下編(未公刊)『日本語上級読解演習 国際学アラカルト』本文部分,約 4万語• (TB) 社会系専門テキスト:「中・上級社会科学系読解教材テキストバンク」(東京外国語大学留学生日本語教育センター 1998 )本文部分,約 19万語• (SS) 社会系専門テキスト:『留学生のための専門講義の日本語』(名古屋大学 国際化拠点整備事業 2010  )全 9冊中,社会系の 3冊分の講義テキスト部分,約

5万語• (TN) 理工系専門テキスト:『留学生のための専門講義の日本語』(同上)全 9冊中,理工系の 5冊分の講義テキスト部分,約 7万語• (BM) 生物・医学系専門テキスト:『留学生のための専門講義の日本語』(同上)全 9冊中,生物・医学系の 1冊分の講義テキスト部分,約 1万語

Page 14: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

(1) 学術共通語彙、 (2) 限定学術共通語彙 学術共通語彙リスト (JAWL = Japanese Academic Word List)0~Ⅷ  9レベル,計 2591語(表1)

中級の  JAWLⅠ :学習・教育上,最も重要なリスト 初級には学術共通語彙の数も少ない

JAWLⅠ   559語Academic Word List (Coxhead, 2000)570語に近い語数

カバー率も AWLに非常に近い抽出時使用の学術コーパスのカバー率AWL: 10.0%JAWLⅠ: 11.1%

Page 15: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

下位コーパス分野別の異なり語数と延べ語数 BCCWJ 2009 版(書籍+「Yahoo知恵袋」)

異なり語数 延べ語数 異なり語数 延べ語数 異なり語数 延べ語数言語・言語学 21252 403305 7831 102504 23708 505809歴史 49700 2096004 11835 138139 51514 2234143民族学・文化人類学 39759 1083009 3040 19666 40150 1102675哲学、宗教 36253 1503013 9269 125917 38229 1628930芸術 35501 967809 5042 39744 36177 1007553文学 68439 8251999 5592 36852 68915 8288851人文・芸術(その他) 46304 1973098 683 3414 46337 1976512

小計 16278237 466236 16744473政治学 26299 920841 8814 115166 27900 1036007法学 16502 511059 10074 333946 19542 845005経済学 20015 684404 12534 367555 23525 1051959経営学、商学 22087 846432 10788 310716 24489 1157148社会学 30362 1318930 12960 333772 33008 1652702 福祉、労働、ジェンダーも含める。

教育学 20157 621050 10417 262063 22675 883113 教科教育法もすべてここに含める。

社会科学(その他) 18993 424164 4114 36168 19652 460332 運輸、通信、心理学、時事問題も含める。小計 5326880 1759386 7086266

数学 3497 40397 1959 19472 4352 59869物理学 2368 25239 1280 9430 2920 34669

天文学・地球惑星科学 8181 101565 2583 21765 9035 123330化学、金属・鉱山 4682 37469 2553 23275 6017 60744工学(建築・土木) 16242 307617 7662 114099 18443 421716工学(機械、電気、海洋・船舶) 12993 195762 5495 72049 14820 267811理工系自然科学(その他) 18530 399470 8426 145175 21018 544645 情報工学、製造工業、生活科学(一部)、情報科学、図書館学など

小計 1107519 405265 1512784生物学 14680 262283 4064 41071 15672 303354農学 14932 238989 3376 28584 15860 267573 林学、水産学、畜産学・獣医学を含む。

薬学 3610 24703 1103 10197 4017 34900医学 16657 485896 5955 82800 17961 568696歯学 1740 11551 874 3814 2174 15365看護学 2348 19255 2491 23505 3744 42760生物系自然科学(その他) 28254 943822 6749 74567 29490 1018389 スポーツ、衛生学、生活科学(一部)、環境 など

小計 1986499 264538 2251037YahooインターネットQ&Aフォーラム(「 知恵袋」)YahooインターネットQ&Aフォーラム(「 知恵袋」) 54215 5224852 54215 5224852

合計 29923987 46996 2895425 144231 32819412

理工

生物・医学

文系

理系

備考

人文

社会

一般テキスト 専門テキスト 合計学術領域 学術分野

Page 16: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

 表1 日本語学術共通語彙 (JAWL) のレベル別異なり語数・語例・語種比率

和語 漢語 外来語混種語

固有名詞

記号不明その他

4 31    科学 規則 割合   生産 産業 講義

25.8 67.7 0.0 3.2 0.0 3.2

3 39    人口 スクリーン 数学   競争 工業 地理

20.5 71.8 7.7 0.0 0.0 0.0

J AWL I 4 559    発足 半数 配分   縮小 適正 見直し

20.6 74.6 2.1 2.5 0.0 0.2

J AWL II 3 542    演説 大小 実情   ステージ ライフ 担保

14.2 76.8 6.5 1.3 1.1 0.2

J AWL III 4 212    難問 能動 付随   定型 除 本稿

12.7 76.9 7.5 2.8 0.0 0.0

J AWL IV 3 452    交錯 カウント 精度   一因 箇年 エンド

12.4 75.9 9.1 1.5 0.9 0.2

J AWL V 4 103    併存 親和 盛況   散在 補填 関わり合う

8.7 82.5 7.8 1.0 0.0 0.0

J AWL VI 3 328    帰着 編著 沿海   拮抗 常套 内情

13.1 75.0 9.5 1.5 0.3 0.6

J AWL VII 4 56    閉 増刊 含意   複 活路 所与

16.1 66.1 10.7 3.6 0.0 3.6

J AWL VIII 3 269    付則 深度 孤   概算 頒布 円錐

14.1 71.4 11.2 1.9 0.0 1.5

語例

(各カテゴリー中、一般的語彙重要度ランク最下位6語)

語種比率(%)(異なり語数)学術共

通語彙ラベル

旧日本語能力試験出題範囲

留学生のための一般的な語彙重要

(*1)度ランク

レベル

4大領域中の共通領域

数(*2)

異なり語数

J AWL 0 初級

15000-20000 超上級

3級

2級

1級

級外

679-1288

1289-5000

5001-10000 上級前半

中級

10001-15000 上級後半

Page 17: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

初級語彙( JAWL 0含む) + JAWLⅠ 20.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学( Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。

Page 18: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

初級語彙 ( JAWL 0含む) + JAWLⅠ 計78.1% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学 (Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。

Page 19: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

初級語彙( JAWL 0含む)+ JAWLⅠ+JAWLⅡ 6.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学 (SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学( Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。

Page 20: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

領域別の特徴 新聞には初級語彙が少なく,中級の学術共通語彙が多い 理系(理工系,生物・医学系)には文系(人文系,社会系)より上級の学術共通語彙が多い 3領域語 (JAWLⅡ など )に欠けている1領域(一般テキストと比較して学術テキストで高い割合を示さなかった領域)

生物・医学系が 1630語中 613語( 37.6%)と最多 以下,人文系 440語( 27.0%),理工系 343語( 21.0%),社会系 234語( 14.4%)社会系は理工系や人文系との共通性が高い 生物・医学系は他の領域との共通性が相対的に低い

Page 21: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

(3) 文芸語彙 文芸語彙リスト (JLW = Japanese Literary Words)5レベル,計1616語(表1) 中~上級に多く分布名詞( 39.9 %)、動詞( 34.0 %) 学術共通語彙と比べ動詞、副詞、間投詞が多い7割以上は和語 漢語が4分の3を占める学術共通語彙と対照的

Page 22: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

日本語文芸語彙のレベル別語数および語例

初級 3旧 級 682-1,291 142 ちっとも引き出し

中級 1,292-5,000 446 戸惑う吐き出す

上級1 5,001-10,000 483 不吉銀色

上級2 10,001-15,000 345 敵機口笛

超級 15,000-20,000 200 香菜樹海

1,616

レベル 語数 各レベル2最下位の 語日能試 留学生のための語彙

2011b)ランク(松下

Total

旧2級旧1級旧級外

Page 23: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

日本語文芸語彙の特徴 1) 身体部位を表す語(「首」「指先」「まぶた」) 2) 身体動作を表す語(「立ち上がる」「 飛び出す」「 引っ張る」) 3) 陳述や様態の副詞(「ちっとも」「たちまち」「きらきら」) 4) 間投詞(「おや」「へー」「ほら」) 5) 縮約や地域語などの口語的表現(「こりゃ」「-ちまう」「-はる」「-さかい」) 6)比喩に用いられる語(「振り向く」「流れる」「かみしめる」) 7) 作品の背景(舞台装置・小道具)に用いられやすい物体を表す語(「ビール」「岩」「ソファー」) 総じて言えば「人間の感情や動作を生き生きと描写する語彙」 性的描写や殺人、戦争を連想させる語も目立つ。コーパスは厳密なサンプリングによるものなので、冒険、推理、サスペンス、歴史などが多く題材になっているためだと考えられる。

Page 24: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

6.テキストカバー効率( TCE) の提案

E = =   E: テキストカバー効率 = 対象となる語群の中のある

1語の、対象領域テキスト100万語あたりに期待される延べ語数

:対象領域テキストにおける対象となる語群の延べ語数 :対象領域テキストにおける対象となる語群の異なり語数(異なり語彙素数)

: 対象テキストの延べ語数(テキストの長さ)

Page 25: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

テキストカバー効率( TCE) の考え方 The idea behind TCE is simply that it is better to

gain more text coverage by a smaller number of learned lexemes. In other words, even if a group of words provide high text coverage, it will not always be efficient to learn the group of words if the group has many lexemes to learn. Therefore, the average number of tokens to be covered by a word in the group needs to be calculated. High efficiency in vocabulary learning is that more words in a text are covered by fewer learned words. TCE is assumed to predict the average efficiency in gaining text coverage by learning a word of the group.

Page 26: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

7.ジャンルによる効率的語彙学習順序の違い(1) TCE of the Grouped Words by Genre (Not Graded by Level) *Domain-unspecified

Corpus Code MC BSB UPC BCCWJ UYN TB MTT-Ss TIS MTT-Bn MTT-Tn BCCWJ-T JS-Bn JS-Tn

GenreConver-sation

Novels,Essays etc.

Essays,Novels

etc.Whole News-

paper SsSs

(Intro.) Ss & HaBn

(Intro.)Tn

(Intro.)Academic(Various)

Bn(JournalArticles)

Tn(JournalArticles)

Total Tokens (Million) 1.13 2.30 2.10 32.82 5.68 0.19 0.05 0.04 0.01 0.07 2.90 0.72 2.71

WISF-JLPTLevel Label

Numberof

Lexemesin VDRJ

1-20,000 L4-L1, Others General 13,302 61 59 58 56 48 50 51 50 46 46 46 41 40AW 2,591 10 28 29 42 80 82 81 80 88 89 90 103 108LAD 2,542 6 15 12 21 44 35 30 35 27 23 36 26 24LW 1,616 67 41 46 28 11 10 10 12 9 14 11 7 7

20,001+ 21K+ 91,104 0.1 0.2 0.2 0.2 0.2 0.1 0.1 0.1 0.4 0.4 0.3 0.3 0.5-- AKW 30,821 0.6 0.8 0.4 0.6 0.4 0.1 0.1 0.3 0.1 0.2 0.4 0.2 0.1

1-5,000 L4-L1, Others 1K-05K 5,024 184 178 177 177 177 183 187 183 171 168 177 163 1591-10,000 L4-L1, Others 1K-10K 10,024 95 93 93 92 94 96 96 96 90 89 93 86 85*WIS: Word Rankings for International Students *AKW: Assumed Known Words (mostly proper nouns)*F-JLPT: The former Japanese Language Proficiency Test *Ha: Humanities & Arts*VDRJ: Vocabulary Database for Reading Japanese *Ss: Social Sciences*AW: Common Academic Words *Tn: Technological Natural Sciences*LAD: Limited-academic-domain words *Bn: Biological Natural Sciences*LW: Literary Words

TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a one-million-token text in the target domain.

682-20,000

L3-L1,Others

L2, L1,Others

Page 27: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

(2) Ranking for TCE of the Grouped Words in Each Genre (Not Graded by Level) *Domain-unspecified

Corpus Code MC BSB UPC BCCWJ UYN TB MTT-Ss TIS MTT-Bn MTT-Tn BCCWJ-T JS-Bn JS-Tn

GenreConver-sation

Novels,Essays etc.

Essays,Novels

etc.Whole News-

paper SsSs

(Intro.) Ss & HaBn

(Intro.)Tn

(Intro.)Academic(Various)

Bn(JournalArticles)

Tn(JournalArticles)

Total Tokens (Million) 1.13 2.30 2.10 32.82 5.68 0.19 0.05 0.04 0.01 0.07 2.90 0.72 2.71

WISF-JLPTLevel Label

Numberof

Lexemesin VDRJ

1-20,000 L4-L1, Others General 13,302 2 1 1 1 2 2 2 2 2 2 2 2 2AW 2,591 3 3 3 2 1 1 1 1 1 1 1 1 1LAD 2,542 4 4 4 4 3 3 3 3 3 3 3 3 3LW 1,616 1 2 2 3 4 4 4 4 4 4 4 4 4

20,001+ 21K+ 91,104 6 6 6 6 6 6 6 6 5 5 6 5 5-- AKW 30,821 5 5 5 5 5 5 5 5 6 6 5 6 6

*WIS: Word Rankings for International Students *AKW: Assumed Known Words (mostly proper nouns)*F-JLPT: The former Japanese Language Proficiency Test *Ha: Humanities & Arts*VDRJ: Vocabulary Database for Reading Japanese *Ss: Social Sciences*AW: Common Academic Words *Tn: Technological Natural Sciences*LAD: Limited-academic-domain words *Bn: Biological Natural Sciences*LW: Literary Words

Ranking for TCE of the Grouped Words in Each Genre

682-20,000

L3-L1,Others

L2, L1,Others

Page 28: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

Basic Inter. Adv. 1 Adv. 2 S-Adv.General 495.6 13.9 3.2 2.0 1.2

CAW (4D) 1098.7 241.1 41.4 22.6 10.3CAW (3D) 425.1 95.4 27.3 13.4 7.6

LAD (1D-Bn) 77.8 89.1 20.3 22.0 17.6

TCE in Biological Natural Science Journal Articlesby Type of and Level of Grouped Words

TCE: Text Covering Efficiency= Expected number of tokens of a lexeme in the tested groupin a one-million-token text in the target domain

Page 29: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

TCE in Biological Natural Science Journal Articlesby Type of and Level of Grouped Words TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a one-million-token text in the target domain

Inter. Adv. 1 Adv. 2 S-Adv.0.0

50.0

100.0

150.0

200.0

250.0

300.0

GeneralCAW (4D)CAW (3D)LAD (1D-Bn)

Page 30: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

8.ニーズと「学習難易度」の視点(1)ニーズ分析の問題母語話者中心のコーパスの分析はニーズ中心の考え方 学習者コーパスは語彙ニーズを反映するとは言い切れない 学習者の場面と話題のニーズを調査し、そこでの母語話者/学習者の両方のコーパスデータが望ましいのでは

Page 31: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

(2)語の学習難易度の問題単語の学習難易度は(接触頻度の問題を除けば)一般に初級ほど高い。多義語が多いため。 多義語の各用法を同時に初出で学ぶ必要はない。負担にならないのがよい。 (類義語を同時提出しがちだが)類義語を同時に初出で学ぶのは良くない。混乱する。(先行研究多数)結局、ニーズ領域に沿って頻度の高いものから学ぶのがよい ある程度定着して、類義語の違いに意識が向いたところで学ぶのは効果があるはず

Page 32: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

( A )類義・類形の語の学習 意味や用法の似ている語はいっしょに教える?

初出で、同時に二つ以上の類義語/類義字を教えるのは× *混乱を招きそうな既存教材が少なくない 一方が定着した後でもう一つを学ぶのは○ 疑問を感じたところで整理するのは○だが、まずは一方に力を入れる

形の似ている語はいっしょに教える? 初出で、同時に二つ以上の類形語、類形字を教えるのは× 一方が定着した後でもう一つを学ぶのは○ 疑問を感じたところで整理するのは○だが、まずは一方に力を入れる

同じ文脈で用いる語はいっしょに教える? Syntagmatic な関係(共起語)は○ Paradigmatic な関係(類義語/上位語・下位語)は基本的に×

Page 33: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

( B ) その他  Q.文脈と結びつけるか、切り離すか A.どちらも有効で、必要  Communicative な方法だけでは非常に効率が悪い  (付随的語彙学習では、平均して10回以上の encounter   が必要だと考えられる (Waring & Takaki, 2003 ほか)) フラッシュカードなどの対連合学習も暗示的知識になりえる(Elgort, 2007)が、 Sequential Ledarning はダメ ⇒ノートよりカードの方がいいかもしれない・・・(?) Spaced Retrieval = 同じ語の学習間隔を少しずつ伸ばしていく さまざまな webツールや スマホのアプリの利用 ストラテジー教育は有効な場合が多い

Page 34: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

( C ) 結局・・・   初めは、「ニーズ領域に合った」会話や読解などの素材で、文脈で学ぶのがよい 並行してフラッシュカードなどの Language-focused learning も入れる

一定期間(日/週/月/学期/年・・・)にどのぐらいの語数や漢字数を学習できるのか、おおよそ把握する(個人差が大きいが・・・)教師にできることは・・・ 読解の素材の語彙レベルをコントロールし、段階的に語彙レベルを上げるように仕組むこと 聴解は、それがむずかしい。リライトできないので。中級レベルで使える、生に近い聴解素材を探す例)NHK: NEWS WEB EASY短いスパンで同一語を数回リサイクルするようなタスクを用意すること

Page 35: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

(3)漢字の問題 漢字は書字形態の学習の難易に手がかりがある(画数、頻度、パーツの頻度など) しかし意味の学習単位はやはり語が中心であるべき まずは語でレベル付けをして、それから漢字のコントロール(書き換え/振り仮名など)を考えるJ-LEXは役に立つはずhttp://www17408ui.sakura.ne.jp/index.html

Page 36: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

母語の影響 中国語系学習者( CBL)は“意味理解に限定すれば”日本語の初級、中級語彙の3分の1は基本義が理解できる (松下2011b, 2012a) CBLと non-CBLの間で難易度の大きな差があったのはほとんどが中国語と同形同義の漢語潜伏 (する ) 前途 反 (政府 ) 共犯 貧困 (な ) 対決 (する ) 気温 元凶 故郷 未満 慈善 符合 (する )費用 肩 腸 学者 周期 炊飯 要領 粒子

外来語の理解における英語知識の影響は、英語が母語に近いレベルであればかなり大きい(カタカナから音韻の decodingが正しくできれば低頻度語彙でも数パーセントの語彙が理解できる)

Page 37: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

参考文献(1)Anthony, L. (2007). AntConc Version 3.2.1 (text analysis tool)

http://www.antlab.sci.waseda.ac.jp/software.html (Version 1.0 first published in 2002)

Anthony, L. (2009). AntWordProfiler 1.200w program. Downloaded from http://www.antlab.sci.waseda.ac.jp/software.html

Bernhardt, E. (2005). Progress and procrastination in second language reading. Annual Review of Applied Linguistics, 25, 133–150. doi:10.1017/S0267190505000073

Chujo, K., & Utiyama, M. (2006). Selecting level-specific specialized vocabulary using statistical measures. System, 34, 255-269.

Coxhead, A. (2000). A new academic word list. TESOL Quarterly, 34(2), 213-238.Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational

Linguistics, 19, 61–74.Hu, M., & Nation, I. S. P. (2000). Vocabulary density and reading comprehension. Reading in a Foreign

Language, 13(1), 403-430. Juilland, A., & Chang-Rodrigues, E. (1964). Frequency Dictionary of Spanish Words. London: Mouton &

Co.Kawamura, Y., Kitamura, T., & Hobara, R. (1997). Reading Tutor ( リーディング・チュー太 ). Cited from

http://language.tiu.ac.jp/index_e.htmlKoda, K. (1989). The Effects of Transferred Vocabulary Knowledge on the Development of L2 Reading

Proficiency. Foreign Language Annals, 22(6), 529–540. doi:10.1111/j.1944-9720.1989.tb02780.xLaufer, B. (1994). The lexical profile of second language writing: does it change over time? RELC

Journal, 25(2), 21-33.Laufer, B., & Ravenhorst-Kalovski, G. C. (2010). Lexical threshold revisited: Lexical text coverage,

learners’ vocabulary size and reading comprehension. Reading in a Foreign Language, 22(1), 15–30.Leech, G., Rayson, P., & Wilson, A. (2001). Word Frequencies in Written and Spoken English. Harlow:

Longman.

Page 38: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

参考文献(2)Matsushita, T. (2011a). Is the vocabulary learning burden of Japanese really

heavier than that of English? The 17th Biennial Conference of the Japanese Studies Association of Australia. University of Melbourne, Melbourne, Australia, 6 July 2011.

Matsushita, T. (2011b). Exploring the tiers of Japanese vocabulary: Academic, literary and beyond. The 2nd Combined Conference of Applied Linguistics Association of Australia & Applied Linguistics Association of New Zealand. Australian National University, Canberra, Australia, 2 December 2011.

Matsushita, T. (2012) In What Order Should Learners Learn Japanese Vocabulary? A Corpus-based Approach. PhD dissertation, Victoria University of Wellington, Wellington.

Nation, I.S.P. (2006). How Large a Vocabulary Is Needed for Reading and Listening? The Canadian Modern Language Review, 63(1): 59-82

Nation, P., & Beglar, D. (2007). A vocabulary size test. The Language Teacher, 31(7), 9–13.

Utiyama, M. and Isahara, H. (2003) Reliable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003, 72-79.

Waring, R., & Takaki, M. (2003). At what rate do learners learn and retain new vocabulary from reading a graded reader? Reading in a Foreign Language, 15(2), 130-163.工藤 拓 (2006). MeCab Ver. 0.98pre3(形態素解析器) http://mecab.sourceforge.net/ 2009年7月10日小森和子・三國純子・近藤安月子 (2004)「文章理解を促進する語彙知識の量的側面 ―既知語率の閾値探索の試み―」『日本語教育』 125, 83-92.

Page 39: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

参考文献(3)伝 康晴・山田 篤・小椋秀樹・小磯花絵・小木曽智信 (2009). UniDic version 1.3.12(解

析辞書) http://www.tokuteicorpus.jp/dist/ (Ver. 1.3.0.は 2007)野口裕之 (2008)「試験結果の分析」国際交流基金・日本国際教育支援協会『平成17年度日本語能力試験 分析評価に関する報告書』 45–111、凡人社松下達彦 (2010) 「日本語を読むために必要な語彙とは? -書籍とインターネットの大規模

コーパスに基づく語彙リストの作成-」『2010年度日本語教育学会春季大会予稿集』335-336.

松下達彦 (2011a) 日本語を読むための語彙データベース (The Vocabulary Database for Reading Japanese). http://www.geocities.jp/tatsum2003/ 2011年5月22日

松下達彦 (2011b) 「複数の語彙リストの比較による、日本語の常用語に含まれる日中同形漢語の量的検証 -学習開始時点で、受容的語彙知識は、学習者の母語によりどのぐらい異なるか-」The 4th Annual North East Asian Region (N.E.A.R.) Language Education Conference, International University of Japan, Niigata, Japan, 28 May 2011.松下達彦 (2011c) 「日本語の学術共通語彙(アカデミック・ワード)の抽出と妥当性の検証」『2011年度 日本語教育学会春季大会 予稿集』 244–249.松下達彦 (2012a)「日本語を読むための語彙量テスト」の開発」『2012年日本語教育国際研究大会予稿集第一分冊』 310.

松下達彦 (2012b) 「日本語文芸語彙の抽出と検証 ―コーパスに基づくアプローチ―」第九回国際日本語教育・日本研究シンポジウム、香港城市大学、2012年11月24日

Page 40: 効率的な語彙学習順序とは -コーパスに基づくアプローチ-

ホームページ(「松下」「言語」で検索してください)http://www17408ui.sakura.ne.jp/tatsum/