Rでリーダビリティを計算する
@langstat
Tokyo.R #48 2015/06/20
At NIFTY Corpora@on
1
自己紹介 • 小林 雄一郎 (@langstat)
– しがない任期つき研究者 – テキストマイニングなどに興味あり
2
いま最もホットなニュース
hDp://www.afpbb.com/ar@cles/-‐/3049269?pid=0
3
研究結果 • ヒット曲の歌詞の標準的な読解レベルは小学校3年生(アメリカの教育制度で約8歳)
• 10年前と比べて、大きく低下
• 音楽のジャンルの中で読解レベルが最も高いのはカントリーミュージックで小学校3.3年生、R&Bとヒップホップは最低の2.6年生レベル
• 小学校1年生レベルを下回ったのは、ヘビーメタル界の帝王オジー・オズボーンの「レット・ミー・ヒア・ユー・スクリーム」など
4
オジー・オズボーン? 誰それ??
5
この人です 6
hDps://humandynamics.files.wordpress.com/2011/07/11050_ozzy-‐osbourne-‐impotent.jpg
街の声 • オジーの歌詞が小学校1年生以下だって? • 信じられない結果だ! • 何かの間違いに違いない! • 俺のオジーがそんなアホなわけがない! (当社脳内調べ)
7
hDp://www.afpbb.com/ar@cles/-‐/3049269?pid=0
どんな指標で測った? • Flesch–Kincaid Grade Level (FKGL)
– 文章の読みやすさ(リーダビリティ)を測るための一般的な指標 – 1文あたりの平均単語数) x 0.39 + (1単語あたりの平均音節数) x 11.8 -‐
15.59 • 1文あたりの平均単語数 = 英文中の総単語数 / 英文中の総文数 • 1単語あたりの平均音節数 = 英文中の総音節数 / 英文中の総単語数
– 結果として得られるスコアは、アメリカの学校の学年(小学校1年生ならば1、中学校1年生ならば7)
– 公式文書の作成、英作文の評価など、幅広く活用 – hDps://en.wikipedia.org/wiki/Flesch%E2%80%93Kincaid_readability_tests
8
Rで検証してみよう • オジーの“Let Me Hear You Scream”の歌詞を入手し、テキストファイルに保存 – hDp://www.azlyrics.com/lyrics/ozzyosbourne/letmehearyouscream.html
• RのkoRpusパッケージで分析 > # パッケージのインストール > install.packages(“koRpus”, dependencies = TRUE) > # パッケージの読み込み > library(koRpus) > # データの読み込み > tok <-‐ tokenize(“LetMeHearYouScream.txt”, lang = “en”) > # FKGLの計算 > flesch.kincaid(tok)
9
検証結果
• FKGLの値がマイナスに!! – つまり、小学校1年生以下 – 年齢でいうと、4.6歳程度の英文レベル
10
Hyphena@on (language: en) |===================================================================| 100% Flesch-‐Kincaid Grade Level Parameters: default Grade: -‐0.37 Age: 4.63
他の指標だと? • Coleman–Liau Index (CLI)
– (100語あたりの平均文字数) x 0.588 + (1文あたりの平均単語数) x 0.296 -‐ 15.8
– 結果: -‐0.71 – hDps://en.wikipedia.org/wiki/Coleman%E2%80%93Liau_index
• Automated Readability Index (ARI) – (1語あたりの平均文字数) x 4.71 + (1文あたりの平均単語数) x 0.5 -‐
21.43 – hDps://en.wikipedia.org/wiki/Automated_Readability_Index – 結果: -‐2.46
• 実行した関数などは、以下を参照 – 語彙の豊富さや文章の難しさを測る (1) – langstat blog
hDp://langstat.hatenablog.com/entry/20140707/1404660387
– 語彙の豊富さや文章の難しさを測る (2) – langstat blog hDp://langstat.hatenablog.com/entry/20140708/1404745200
11
結論
12
• FKGL、CLI、ARIのいずれの指標を用いた場合でも、結果がマイナスの値
↓ • やはり小学校1年生以下の英文だった。。。
hDp://www.doseofmetal.com/wp-‐content/uploads/2010/10/ozzy-‐osbourne.jpg
がーん 13
hDps://humandynamics.files.wordpress.com/2011/07/11050_ozzy-‐osbourne-‐impotent.jpg
他のテキストは? • Stephen KingのThe Green Mile
– FKGL: 8.4 • CNN.comの記事
– FKGL: 10.9 hDp://www.readabilityformulas.com/flesch-‐grade-‐level-‐results.php
• Hadley Wickhamの論文(Tidy data)の概要 – FKGL: 11.31
• センター試験の長文問題(平成27年度本試験、第6問) – FKGL: 12.84
• NIFTY代表取締役社長のメッセージ(英語版) – FKGL: 14.75
14
おまけ • 日本語テキストのリーダビリティを計算するには?
– 日本語文章難易度判別システム jReadability • hDp://jreadability.net/
– 日本語リーダビリティー測定(長岡技術科学大学リーダビリティー・リサーチ・ラボ) • hDp://readability.nagaokaut.ac.jp/research/html/modules/@nyd0/
– 日本語の文章の難易度を測るWebサービス「帯」 • hDp://efcl.info/2008/0502/res166/
etc.
15
Enjoy!! 16 hDp://ozzfestjapan.com/