18
人間言語判別☆カタルーニャ語編 [飛び入りLT] 2012/2/25 TokyoNLP #9 中谷 秀洋@サイボウズ・ラボ @shuyo / id:n_shuyo

人間言語判別 カタルーニャ語編

Embed Size (px)

DESCRIPTION

TokyoNLP の飛び入りLTの資料。

Citation preview

Page 1: 人間言語判別 カタルーニャ語編

人間言語判別☆カタルーニャ語編 [飛び入りLT]

2012/2/25 TokyoNLP #9

中谷 秀洋@サイボウズ・ラボ

@shuyo / id:n_shuyo

Page 2: 人間言語判別 カタルーニャ語編

言語判定(復習)

Page 3: 人間言語判別 カタルーニャ語編

これ何語?

• Ik kan er nooit tegen als mensen me negeren.

• Aha ich seh angeblich süß aus

• Czy mógłbym zasnąć w przedmieściach Twoich myśli?

• Ah. Tak. Så skal jeg bare finde ud af *hvordan*!

• Det er ikke så digg nei å vi som har finale til helga....Skrekk og gru! Takk :)

• tack kompis! Hade faktiskt tänkt maila dig på fb och fråga vart du tog vägen!

• Çok doğru. En büyük hatayı yaptım.

• Încântat de cunoștință.

• Một người dân bị thương và bốn người mất tích sau khi một ngọn núi lửa ở miền trung...

Page 4: 人間言語判別 カタルーニャ語編

人間言語判定(一部)

• ik があればオランダ語。

• ich があればドイツ語。ß もドイツ語の特徴。

• czy があればポーランド語。Ł, ń, ś, ź もポーランド語のみ

• å があればデンマーク語かノルウェー語かスウェーデン語

– af があればデンマーク語。「ありがとう」は tak

– nei があればノルウェー語。「ありがとう」は takk

– och があればスウェーデン語。「ありがとう」は tack

• ı (点のない i) か ğ があればトルコ語

• ă や ș や ț があればルーマニア語

– ă はベトナム語でも使うが、似てないから大丈夫

– ş はトルコ語でも使うが、似てないから大丈夫

• WinXP で表示されない文字がいっぱいあったらベトナム語(ぇ

Page 5: 人間言語判別 カタルーニャ語編

これ何語?(解答編)

• Ik kan er nooit tegen als mensen me negeren. オランダ語

• Aha ich seh angeblich süß aus ドイツ語

• Czy mógłbym zasnąć w przedmieściach Twoich myśli? ポーランド語

• Ah. Tak. Så skal jeg bare finde ud af *hvordan*! デンマーク語

• Det er ikke så digg nei å vi som har finale til helga....Skrekk og gru! Takk :) ノルウェー語

• tack kompis! Hade faktiskt tänkt maila dig på fb och fråga vart du tog vägen! スウェーデン語

• Çok doğru. En büyük hatayı yaptım. トルコ語

• Încântat de cunoștință. ルーマニア語

• Một người dân bị thương và bốn người mất tích sau khi một ngọn núi lửa ở miền trung... ベトナム語

Page 6: 人間言語判別 カタルーニャ語編

language-detection(langdetect) (中谷 2010)

• 言語判定 Java ライブラリ

– http://code.google.com/p/language-detection/

– Apache License 2.0

• TokyoNLP #2 で発表 – http://d.hatena.ne.jp/n_shuyo/20100925/language_detection

• Apache Solr の言語判定モジュールに採用

Page 7: 人間言語判別 カタルーニャ語編

ldig (中谷 2011)

• ∞-gramを使った twitter 向け言語判定

– 極大部分文字列がどーとか。

– 17言語のツイートを99.1%で判定

• TokyoNLP #8, NLP2012 で発表(予定)

• 実装&学習済みモデルはここに – https://github.com/shuyo/ldig (MIT License)

• 資料はこの辺とか – http://d.hatena.ne.jp/n_shuyo/20111125/language_detection

– http://d.hatena.ne.jp/n_shuyo/20120201/nlp2012

– http://shuyo.wordpress.com/2012/02/21/language-detection-for-

twitter-with-99-1-accuracy/

Page 8: 人間言語判別 カタルーニャ語編

lang training test correct accuracycs 4581 5329 5319 99.81da 5480 5476 5308 96.93de 43930 9659 9611 99.50en 44912 9612 9497 98.80es 44921 10127 10050 99.24fi 4576 4490 4464 99.42fr 44142 10063 10014 99.51id 44873 10183 10163 99.80it 44045 10152 10110 99.59nl 44933 9677 9532 98.50no 7525 8513 8192 96.23pl 12854 10070 10059 99.89pt 44464 9459 9359 98.94ro 6114 5902 5812 98.48sv 44339 9952 9870 99.18tr 44787 10309 10301 99.92vi 10413 10494 10481 99.88total 496889 149467 148142 99.11

Page 9: 人間言語判別 カタルーニャ語編

かたるーにゃ?

Page 10: 人間言語判別 カタルーニャ語編
Page 11: 人間言語判別 カタルーニャ語編

カタルーニャ語(カタロニア語)

• 最も話者の多い地域語

• スペインの公用語の一つ

– 弾圧された歴史あり

• スペイン語(カスティーリャ語)と似て

いるようで似ていないようで似ている

• フランス語と似ていないようで似ている

ようで似ていない

Page 12: 人間言語判別 カタルーニャ語編

経緯

• 「カタルーニャ語の言語判定がいまいちなん

だけど」

• 「あーツイートでしょ? カタルーニャ語の

コーパスを作れば精度上がるんだけど」

• 「コーパス作るのってどうすんの? カタ

ルーニャ人の同僚いるから手伝わせるよ!」

• mjd!

Page 13: 人間言語判別 カタルーニャ語編

コーパスの作り方

• twitter Streaming API の sample メ

ソッド

– 全ツイートの 1%程度をサンプリング

– 1日 200万件

• ラテン文字の言語はその6割程度

• これに言語ラベルを振るだけの

かんたんなお仕事

Page 14: 人間言語判別 カタルーニャ語編

言語ラベルを振る

• ツイートをユーザのタイムゾーンごとに分類

– フランス語のツイートは全体の 1% 程度

– しかし Paris タイムゾーンに限れば 50%

• ただし全体の2割はタイムゾーン未設定

• langdetect で仮ラベルを振る

– fr のツイートから、フランス語以外を除く(手作業)

– fr 以外のツイートから、フランス語を拾う(手作業)

• これを各言語ごとに繰り返し行い続ける

ラテン文字中 7番目の多さ!

Page 15: 人間言語判別 カタルーニャ語編

カタルーニャ語の場合

• カタルーニャ語話者は Madrid と Paris

タイムゾーンに分布している(推測)

– サイトは Catalunya, Barcelona, Valencià,

Girona など

• スペイン語にまあまあ似ていて、フラン

ス語とそこそこ似ている

– langdetect は es や fr のラベルを付けるこ

とも多い

Page 16: 人間言語判別 カタルーニャ語編

カタルーニャ語の見分け方

• スペイン語っぽいのに ç が出てくる

• スペイン語よりアクセント付きも字が多め

• 疑問文が逆さハテナで始まらない

• 文字 x をよく使う。y はあまり使わない

• 固有単語 amb, els, això, més が頻出

• 単語 i も大ヒント

• あとは勘

– 3000文くらいながめていると、だいたいどの言語でも「~語っぽくない?」とわかる

– デンマーク語/ノルウェー語除く

Page 17: 人間言語判別 カタルーニャ語編

まとめ

• 意外とわかる

• カタルーニャ語かわいいよ!

Page 18: 人間言語判別 カタルーニャ語編

ありがとうございました