Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
レストラン・レビューにおける 食べ物・飲み物表現の抽出 2018/09/07
新堂 (DG), 友利 (京大), 富田 (カカク), 兼村 (DG), 森 (京大)
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 2
ü はじめに ü コーパス構築 ü 実験設計 ü 実験 ü まとめ・今後
目次
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 3
はじめに: レビュー・データ分析の需要と必要性
Mobile Internetが 広く普及。
ローカル・ビジネスに関する レビュー・サービスが定着。
レビュー・サービス内に 大量の消費者の声が蓄積。
マーケティングで 利用したい!
口コミの累計投稿数が 2014年には500万件に。 (参考: Yelpは現時点で1.6億件)
実は課題だらけ
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 4
はじめに: レビュー・データ分析の難しさとタスク設定
レビュー・テキストはユーザーの自由記述: ü 既存の形態素解析辞書に含まれない表現が多い。 ü 記号・絵文字・顔文字などを含む砕けた表現が多い。 ü 従来通り行や句点を処理単位にできない表現が多い。
⇒既存のNLP技術がどれくらい通用する?
食べログのレビュー・データを使って 食べ物・飲み物表現を抽出させることで、 既存のNER技術がどの程度通用するか把握する。
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 5
コーパス構築: 食べ物・飲み物の認定ルール (1)
料理のトレンドを把握するタスクを仮定: ü 1つの食べ物や飲み物を示す表現を中心に、隣接する性質の情
報をまとめてNEとしてタグ付け。
ü 性質: 味、香り、形状、温度、調理法、産地、価格、ブランドなど。
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 6
コーパス構築: 食べ物・飲み物の認定ルール (2)
ü 香り高くのど越し抜群のおいしい十割そばだ。 ü さすがに鹿児島県産天然ヒラマサはうまい。 ü お通し 筍のグリルの山椒ソース添え
ü 美瑛産ジャガイモの冷た~いスープが前菜。 ü お店で人気のGABAN製の高価なスパイス。 ü ファミマのあんぱんみたいなパン。
太字がNE部分。
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 7
コーパス構築: コーパスの内訳
Ca1はCr1と、Ca2はCr1+Ca2と、表現の重複を避けるよう調整。 同時により長いNEを含むようにしている。(see 予稿)
コーパス 容量 (MB) 形態素数 (万) NE数 NE異なり数 NE平均長
Cr1 1.2 25.9 11633 4435 1.89
Cr2 1.1 21.4 9924 3926 1.89
Ca1 0.6 11.5 4884 2796 2.54
Ca2 0.5 11.0 5195 2739 2.25
Cr1 + Cr2 2.3 47.3 21557 7380 1.89
Cr1+Ca1+Ca2 2.3 48.4 21712 8583 2.12
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 8
実験設計: 概要
2種類のNERのモデル ü CRF ü BiLSTM+CNNs+CRF
× 1種類の学習コーパス
× 2組の開発・試験コーパス ① 未知語とNEの長さに特別な片寄りがない。 ② 未知語が多くNEが長い傾向がある。
開発コーパスは パラメータ推定などに利用
学習コーパス内に ない表現
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 9
実験設計: 固有表現抽出器
広く使われている・いたNERのモデルと、 現時点のSoTAのNERのモデルを試したい。
本研究で用いるNERのモデル: ü CRF w/形態素基準の素性 (see 予稿) ü BiLSTM+CNNs+CRF (Ma+2016)
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 10
実験設計: コーパスの内訳
使用内容 実コーパス
学習コーパス Cr1
開発コーパス1 Cr2の半分
試験コーパス1 Cr2の半分
開発コーパス2 Ca1
試験コーパス2 Ca2
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 11
実験設計: コーパスの詳細 (1)
NEの長さ 学習コーパス 開発コーパス1 開発コーパス2
1 6594 2894 2195
2 2907 1300 1101
3 945 395 545
4 469 233 316
5 279 144 239
6 169 76 168
7 95 36 114
8 61 21 78
9 39 20 34
9超 75 34 94
合計 11633 5153 4884
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 12
実験設計: コーパスの詳細 (2)
NEの長さ 試験コーパス1 (既) 試験コーパス1 (未) 試験コーパス2 (既) 試験コーパス2 (未)
1 2353 363 1983 496
2 585 618 537 790
3 42 341 19 524
4 4 200 1 304
5 0 106 0 189
6 0 59 0 127
7 0 31 0 79
8 0 21 0 63
9 0 12 0 27
9超 0 36 0 56
合計 2984 1787 2540 2655
学習コーパス 内にある表現
学習コーパス 内にない表現
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 13
実験: 全体の結果
モデル 評価尺度 開発・試験1 開発・試験2
CRF
精度 0.807 0.752
再現率 0.630 0.526
F値 0.708 0.619
BiLSTM +CNNs +CRF
精度 0.791 0.751
再現率 0.797 0.737
F値 0.794 0.744
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 14
実験: CRF (結果概要)
NEの長さ 精度 (開・試1) 再現率 (開・試1) 精度 (開・試2) 再現率 (開・試2)
1 0.887 0.609 0.806 0.470
2 0.819 0.721 0.808 0.624
3 0.734 0.606 0.713 0.534
4 0.612 0.564 0.711 0.531
5 0.548 0.538 0.615 0.582
6 0.493 0.610 0.636 0.606
7 0.429 0.677 0.593 0.646
8 0.458 0.524 0.500 0.333
9 0.214 0.250 0.314 0.407
9超 0.286 0.270 0.250 0.286
全体 0.807 0.630 0.752 0.526
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 15
実験: CRF (ミスの分析)
1行に短いNEが複数ある場合にラベルを付与しなかったケース: ü see 予稿
未知の短いNEにラベルを付与しなかったケース: ü see 予稿
太字は正解を、 緑字は推定結果を示す。
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 16
実験: BiLSTM+CNNs+CRF (結果概要)
NEの長さ 精度 (開・試1) 再現率 (開・試1) 精度 (開・試2) 再現率 (開・試2)
1 0.852 0.827 0.817 0.764
2 0.788 0.835 0.760 0.790
3 0.673 0.731 0.704 0.725
4 0.649 0.652 0.650 0.671
5 0.492 0.570 0.602 0.634
6 0.508 0.561 0.583 0.597
7 0.526 0.625 0.583 → 0.564 0.597 → 0.543
8 0.522 0.600 0.541 0.333
9 0.600 0.250 0.417 0.370
9超 0.458 0.297 0.327 0.321
全体 0.791 0.797 0.751 0.737
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 17
実験: BiLSTM+CNNs+CRF (ミスの分析)
本来より長くラベルを付与したケース: ü see 予稿
本来より短くラベルを付与したケース: ü see 予稿
Copyright©2018DigitalGarage,Inc.Allrightsreserved. 18
まとめ
ü レビュー・テキストにNLP技術を適用するタスクとして、食べログデータにNER技術を適用して食べ物・飲み物表現の抽出を試みた。
ü 従来から使われているCRFベースのNERのモデルでは、再現率が低くなる傾向が見られた。短いNEを複数含む行や未知の短いNEの処理において失敗が目立った。
ü SoTAであるBiLSTM+CNNs+CRFベースのNERのモデルでは、(短い) NEで本来より長く・短くラベルを付与する失敗が目立った。
精度・再現率の両方でまだ改善が必要。