53
ACL参加報告 @ yans2015 首都大学東京 小町研究室 M1 叶内 晨 @shin_kan0 1 2015/09/05 yans2015

Shin acl参加報告2015

Embed Size (px)

Citation preview

Page 1: Shin acl参加報告2015

ACL参加報告  @  yans2015

首都大学東京  小町研究室  M1  

叶内 晨 @shin_kan0

1 2015/09/05 yans2015

Page 2: Shin acl参加報告2015

自己紹介

•  名前:叶内 晨(かのうち しん)  •  所属:首都大 小町研  M1  •  研究:  –  B4:NLPのweb応用分野  

•  Tweetにおける罹患の検出  – M1:機械翻訳  

•  並び替えモデルの改善  

•  趣味  – サッカー  – アニメ  

@shin_kan0 ↑  

ゼロ

2 2015/09/05 yans2015

Page 3: Shin acl参加報告2015

内容

•  ACL2015の参加報告(5分)  

•  論文を通すまでにしたこと(5分)  

•  自分の研究について(5分)  – 風邪を保有する主体の認識  

OUTLINE

3 2015/09/05 yans2015

Page 4: Shin acl参加報告2015

ACLに参加してきました!

4 2015/09/05 yans2015

Page 5: Shin acl参加報告2015

In  北京

5 2015/09/05 yans2015

Page 6: Shin acl参加報告2015

到着

6 2015/09/05 yans2015

Page 7: Shin acl参加報告2015

会場 寄り駅:  オリンピック公園

7 2015/09/05 yans2015

Page 8: Shin acl参加報告2015

会場 寄り駅:  オリンピック公園

8 2015/09/05 yans2015

Page 9: Shin acl参加報告2015

にぎやかな入り口

9 2015/09/05 yans2015

Page 10: Shin acl参加報告2015

にぎやかな入り口

10 2015/09/05 yans2015

Page 11: Shin acl参加報告2015

すごい数の人

11 2015/09/05 yans2015

Page 12: Shin acl参加報告2015

!?!?

12 2015/09/05 yans2015

Page 13: Shin acl参加報告2015

ACLの会場は隣でした…

13 2015/09/05 yans2015

Page 14: Shin acl参加報告2015

学会の1日の流れ

•     9:00  -­‐    招待講演とか  

•  10:00  -­‐    午前の口頭発表  

•  12:00  -­‐  お昼  

•  13:30  -­‐  午後の口頭発表  

•  17:30  -­‐  ポスター発表  &  ディナー  

•  21:00  -­‐  ソーシャルイベント

14 2015/09/05 yans2015

Page 15: Shin acl参加報告2015

大きい方の口頭発表の部屋

15 2015/09/05 yans2015

Page 16: Shin acl参加報告2015

小さい方の口頭発表の部屋

16 2015/09/05 yans2015

Page 17: Shin acl参加報告2015

私自身の発表

私自身も発表

17 2015/09/05 yans2015

Page 18: Shin acl参加報告2015

コーヒーブレイク

18 2015/09/05 yans2015

Page 19: Shin acl参加報告2015

ポスター発表

19 2015/09/05 yans2015

Page 20: Shin acl参加報告2015

食べながらのポスター発表

20 2015/09/05 yans2015

Page 21: Shin acl参加報告2015

ソーシャルイベント

21 2015/09/05 yans2015

Page 22: Shin acl参加報告2015

ソーシャルイベント

22 2015/09/05 yans2015

Page 23: Shin acl参加報告2015

会場からの帰り道

23 2015/09/05 yans2015

Page 24: Shin acl参加報告2015

以下,完全に観光

24 2015/09/05 yans2015

Page 25: Shin acl参加報告2015

北京ダック

25 2015/09/05 yans2015

Page 26: Shin acl参加報告2015

調理後の北京ダック

26 2015/09/05 yans2015

Page 27: Shin acl参加報告2015

天安門

27 2015/09/05 yans2015

Page 28: Shin acl参加報告2015

天安門の手前の緑

28 2015/09/05 yans2015

Page 29: Shin acl参加報告2015

天壇

29 2015/09/05 yans2015

Page 30: Shin acl参加報告2015

チャイニーズなスタバ

2015/09/05 yans2015 30

Page 31: Shin acl参加報告2015

万里の長城

31 2015/09/05 yans2015

Page 32: Shin acl参加報告2015

ACLのまとめ

•  研究のブーム  – 深層学習・分散表現を使ったものがかなり多かった  

•  英語  – 勉強していない人は今からやるべき  

•  参加することで得られる知見:  大  

•  勉強と観光の両方が楽しめる J  

32 2015/09/05 yans2015

Page 33: Shin acl参加報告2015

•  ACLの参加報告(5分)  

•  論文を通すまでにしたこと (5分)  

•  自分の研究について(5分)  – 風邪を保有する主体の認識  

OUTLINE

33 2015/09/05 yans2015

Page 34: Shin acl参加報告2015

私の  Accept  までの流れ

•  9/2  Project  Next  NLP  に参加  – Web  応用チーム に入る  –  Tweetのデータを頂く  

•  11/2  テーマ決定  –  風邪を保有する主体の推定  

•  1/21  言語処理年次大会 提出  

•  2/28  ACL  long  paper  提出  

•  4/25  Accept  !!

2014

2015

•  エラー分析  •  テーマの模索  (2ヶ月)

•  実験  •  論文執筆  (2ヶ月)  

•  論文の英訳  (1ヶ月)

•  落ちたとき用に,他の会議の準備

34 2015/09/05 yans2015

Page 35: Shin acl参加報告2015

私の  Accept  までの流れ

•  9/2  Project  Next  NLP  に参加  – Web  応用チーム に入る  –  Tweetのデータを頂く  

•  11/2  テーマ決定  –  風邪を保有する主体の推定  

•  1/21  言語処理年次大会 提出  

•  2/28  ACL  long  paper  提出  

•  4/25  Accept  !!

2014

2015

•  エラー分析  •  テーマの模索  (2ヶ月)

•  実験  •  論文執筆  (2ヶ月)  

•  論文の英訳  (1ヶ月)

•  落ちたとき用に,他の会議の準備

35 2015/09/05 yans2015

Page 36: Shin acl参加報告2015

研究とテーマ選びで思ったこと  

•  結果が良ければ論文を書く  •  結果が悪ければサーベイに戻る  •  (B4,M1的には,)わからないとこ

ろは,うまく頼りつつ成功したい  

OK   NG

サーベイ  エラー分析  

実験

テーマ決定  手法提案  

論文執筆  投稿

36 2015/09/05 yans2015

Page 37: Shin acl参加報告2015

研究とテーマ選びで思ったこと  

•  結果が良ければ論文を書く  •  結果が悪ければサーベイに戻る  •  (B4,M1的には,)わからないとこ

ろは,うまく頼りつつ成功したい  

OK   NG

サーベイ  エラー分析  

実験

テーマ決定  手法提案  

論文執筆  投稿

ここで(嫌われない程度に)  •  分野に詳しい人の意見を

聞きまくる  

•  まずは自分の教授へ  •  お金を払ってその権利を買っている?

37 2015/09/05 yans2015

Page 38: Shin acl参加報告2015

多くの人を巻き込む

•  Project  Next  NLP  に参加  (9/1~9/3)  – 岡崎先生(東北大),荒牧先生(もと京大)  と出会う  – その後共同研究となり,結局ここをベースに論文

執筆  

•  Yans2014  に参加  (9/21  ~  9/23)  

•  DSIRNLP  に参加  (10/11)  – LT枠を頂いて自分の研究について発表  •  西川大先生や,Lineの佐藤さんなどからアドバイス  

38 2015/09/05 yans2015

Page 39: Shin acl参加報告2015

論文を通すまでにしたこと の まとめ

•  サーベイとエラー分析はできるところまでやる  

•  わからないときは迷わず,周りの力を利用  

•  そのためにいろいろな人と関わる  – 来年もyansに来る

39 2015/09/05 yans2015

Page 40: Shin acl参加報告2015

内容

•  ACLの参加報告(5分)  

•  論文を通すまでにしたこと(5分)  

•  自分の研究について(5分)  – 風邪を保有する主体の推定  

OUTLINE

40 2015/09/05 yans2015

Page 41: Shin acl参加報告2015

疾患の流行  →    現代の大きな心配事

41 2015/09/05 yans2015

Page 42: Shin acl参加報告2015

罹患検出

•  役割  – 早期対策が可能  – 状況を知ることで,正しい判断ができる  

•  一般的な検出方法  – 病院に罹った患者の数から流行を予測  – BUT:  1~2週間のタイムラグ  &  HIGH  コスト  

42 2015/09/05 yans2015

Page 43: Shin acl参加報告2015

ツイートを利用した罹患検出 Broniatowski+  (2013).  Na`onal  and  Local  Influenza  Surveillance  through  Twifer:  An  Analysis  of  the  

2012-­‐2013  Influenza  Epidemic.  PLoS  ONE  8(12):  e83672.

単なるツイート数

罹患検出アルゴリズムを適用

43 2015/09/05 yans2015

Page 44: Shin acl参加報告2015

なぜ罹患検出アルゴリズム  が必要なのか

•  メディアが発言を助長(Broniatowski+  13)  

•  キーワードが発言者の体験・状態を反映せず

AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に

インフルエンザに罹る人を一人でも減らせるようにと思って,ワクチン打ってきた.

44 2015/09/05 yans2015

Page 45: Shin acl参加報告2015

罹患検出 ≒ エラーの削減

•  エラーの原因は様々だが,できるだけ他のタスクにも通用するエラーを改善したい

45 2015/09/05 yans2015

Page 46: Shin acl参加報告2015

今回の取り組み:  疾患・症状を保有する主体の推定

•  「非当事者」ツイートをフィルタリング  

•  手法  – 誰が風邪に罹っているかという主体の情報を付与  – 付与したデータを使い,主体の自動推定器を訓練  

•  貢献  – 主体を推定することで罹患検出の性能が改善  

46 2015/09/05 yans2015

Page 47: Shin acl参加報告2015

どんなことをするのか?

荒牧ら(2011)が作成 本研究でラベル付け

※文内に主体が出現する場合のみ,その表現の出現箇所を記録  疾患:  風邪,咳,頭痛,寒気,鼻水,熱・喉の痛み  各疾患に対し,500ツイートを手作業でラベル付

47 2015/09/05 yans2015

Page 48: Shin acl参加報告2015

主体ラベルの種類

ラベル 意味 発言例

一人称 発言した話者が疾患に関与 風邪引いてひきこもりたい

周辺人物 話者が直接見聞きできる範

囲の人物が疾患に関与 弟がめっちゃ咳してて怖い

その他  人物

それ以外の人物が疾患に

関与 大島優子が風邪らしい…

物体 人間以外の生物・物体が状

態の主体 また PC  が発熱

主体なし 主体が存在せず,疾患のイ

ベントが発生していない 風邪薬買って帰る~  

48 2015/09/05 yans2015

Page 49: Shin acl参加報告2015

主体ラベル推定器の素性

Bag-­‐of-­‐Words  (BoW)  :  疾患クエリの前後9形態素

疾患クエリ :  疾患クエリが何か (例  :  風邪,発熱)

2,3gram  :  疾患クエリの前後6文字の2gram,3gram

URL  :  発言内に URL  があるかどうか

RP,  RT  :  発言内にリプライ・リツイートがあるかどうか

周辺人物辞書  :  周辺人物の主体として適切な単語を人手で集め,発言内にある場合に発火  (例  :  彼女,妹,嫁)  

その他人物辞書 :  周辺人物辞書と同様にして,その他人物辞書を作成し使用 (例  :  幼児,学生,日本人)  

人名 :  「さん・君・ちゃん」の正規表現と一致,もしくはmecabの解析結果で人名が発言にある場合に発火

Tweetサイズ  :  発言の形態素の数に合わせて発火

疾患クエリが主辞 :  疾患クエリの次の形態素が名詞以外の場合に疾患クエリが主辞であるとして発火

49 2015/09/05 yans2015

Page 50: Shin acl参加報告2015

主体推定器の精度  (4値分類)

素性   Micro  F1     Macro  F1    

BoW(ベースライン)   77.2   42.2   BoW  +  疾患クエリ   81.9 53.6 BoW  +  RT  &  reply     80.0 47.1 BoW  +  周辺人物辞書 77.6 46.8 全ての素性   84.0   61.8  

50 2015/09/05 yans2015

Page 51: Shin acl参加報告2015

罹患検出における貢献

風邪

咳 頭痛    

寒気

鼻水

熱     F1  

ベースライン(BL) 84.4   88.5   90.8   75.9   89.2   78.1   84.5   BL  +  推定した主体 85.0   88.3   90.7   81.4   89.4   80.2   85.8   BL  +  ゴールドデータの主体 87.7   92.6   93.5   88.5   91.4   88.6   90.4  

• 主体の自動推定により罹患検出が改善(+1.3poit)  

• 主体の正解データを使えばF値が大幅上昇(+5.9point  )  

• 頭痛と鼻水のF値が変わりづらいのは,他人の頭痛・

鼻水に言及しにくいから?

51 2015/09/05 yans2015

Page 52: Shin acl参加報告2015

主体推定のエラー

•  現状は「一人称」を予測しすぎ  – 鼻水のお薬は効きすぎる        – 風邪なのに仕事とかなんなの?移すの?  

•  人間が見ても主体が不明  – 春の鼻水祭り            – 鼻水爆発しろ!    

       

•  「寒気」の曖昧性  – シベリアから降りてくる寒気は針葉樹の匂いがする  

52 2015/09/05 yans2015

Page 53: Shin acl参加報告2015

まとめ

ある程度努力して,  バットを振ると,  

ACLに通ることがある  

53 2015/09/05 yans2015