レストラン・レビューにおける食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス容量 (MB) 形態素数 (万)

レストラン・レビューにおける食べ物・飲み物表現の抽出 2018/09/07

新堂 (DG), 友利 (京大), 富田 (カカク), 兼村 (DG), 森 (京大)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 2

ü はじめに ü コーパス構築 ü 実験設計 ü 実験 ü まとめ・今後

目次


はじめに: レビュー・データ分析の需要と必要性

Mobile Internetが広く普及。

ローカル・ビジネスに関するレビュー・サービスが定着。

レビュー・サービス内に大量の消費者の声が蓄積。

マーケティングで利用したい!

口コミの累計投稿数が 2014年には500万件に。 (参考: Yelpは現時点で1.6億件)

実は課題だらけ


はじめに: レビュー・データ分析の難しさとタスク設定

レビュー・テキストはユーザーの自由記述: ü  既存の形態素解析辞書に含まれない表現が多い。 ü  記号・絵文字・顔文字などを含む砕けた表現が多い。 ü  従来通り行や句点を処理単位にできない表現が多い。

⇒既存のNLP技術がどれくらい通用する?

食べログのレビュー・データを使って食べ物・飲み物表現を抽出させることで、既存のNER技術がどの程度通用するか把握する。


コーパス構築: 食べ物・飲み物の認定ルール (1)

料理のトレンドを把握するタスクを仮定: ü  1つの食べ物や飲み物を示す表現を中心に、隣接する性質の情

報をまとめてNEとしてタグ付け。

ü  性質: 味、香り、形状、温度、調理法、産地、価格、ブランドなど。


コーパス構築: 食べ物・飲み物の認定ルール (2)

ü  香り高くのど越し抜群のおいしい十割そばだ。 ü  さすがに鹿児島県産天然ヒラマサはうまい。 ü  お通し　筍のグリルの山椒ソース添え

ü  美瑛産ジャガイモの冷た～いスープが前菜。 ü  お店で人気のGABAN製の高価なスパイス。 ü  ファミマのあんぱんみたいなパン。

太字がNE部分。


コーパス構築: コーパスの内訳

Ca1はCr1と、Ca2はCr1+Ca2と、表現の重複を避けるよう調整。同時により長いNEを含むようにしている。(see 予稿)

コーパス容量 (MB) 形態素数 (万) NE数 NE異なり数 NE平均長

Cr1 1.2 25.9 11633 4435 1.89

Cr2 1.1 21.4 9924 3926 1.89

Ca1 0.6 11.5 4884 2796 2.54

Ca2 0.5 11.0 5195 2739 2.25

Cr1 + Cr2 2.3 47.3 21557 7380 1.89

Cr1+Ca1+Ca2 2.3 48.4 21712 8583 2.12


実験設計: 概要

2種類のNERのモデル ü  CRF ü  BiLSTM+CNNs+CRF

× 1種類の学習コーパス

× 2組の開発・試験コーパス ①  未知語とNEの長さに特別な片寄りがない。 ②  未知語が多くNEが長い傾向がある。

開発コーパスはパラメータ推定などに利用

学習コーパス内にない表現


実験設計: 固有表現抽出器

広く使われている・いたNERのモデルと、現時点のSoTAのNERのモデルを試したい。

本研究で用いるNERのモデル: ü  CRF w/形態素基準の素性 (see 予稿) ü  BiLSTM+CNNs+CRF (Ma+2016)


実験設計: コーパスの内訳

使用内容実コーパス

学習コーパス Cr1

開発コーパス1 Cr2の半分

試験コーパス1 Cr2の半分

開発コーパス2 Ca1

試験コーパス2 Ca2


実験設計: コーパスの詳細 (1)

NEの長さ学習コーパス開発コーパス1 開発コーパス2

1 6594 2894 2195

2 2907 1300 1101

3 945 395 545

4 469 233 316

5 279 144 239

6 169 76 168

7 95 36 114

8 61 21 78

9 39 20 34

9超 75 34 94

合計 11633 5153 4884


実験設計: コーパスの詳細 (2)

NEの長さ試験コーパス1 (既) 試験コーパス1 (未) 試験コーパス2 (既) 試験コーパス2 (未)

1 2353 363 1983 496

2 585 618 537 790

3 42 341 19 524

4 4 200 1 304

5 0 106 0 189

6 0 59 0 127

7 0 31 0 79

8 0 21 0 63

9 0 12 0 27

9超 0 36 0 56

合計 2984 1787 2540 2655

学習コーパス内にある表現

学習コーパス内にない表現


実験: 全体の結果

モデル評価尺度開発・試験1 開発・試験2

CRF

精度 0.807 0.752

再現率 0.630 0.526

F値 0.708 0.619

BiLSTM +CNNs +CRF

精度 0.791 0.751

再現率 0.797 0.737

F値 0.794 0.744


実験: CRF (結果概要)

NEの長さ精度 (開・試1) 再現率 (開・試1) 精度 (開・試2) 再現率 (開・試2)

1 0.887 0.609 0.806 0.470

2 0.819 0.721 0.808 0.624

3 0.734 0.606 0.713 0.534

4 0.612 0.564 0.711 0.531

5 0.548 0.538 0.615 0.582

6 0.493 0.610 0.636 0.606

7 0.429 0.677 0.593 0.646

8 0.458 0.524 0.500 0.333

9 0.214 0.250 0.314 0.407

9超 0.286 0.270 0.250 0.286

全体 0.807 0.630 0.752 0.526


実験: CRF (ミスの分析)

1行に短いNEが複数ある場合にラベルを付与しなかったケース: ü  see 予稿

未知の短いNEにラベルを付与しなかったケース: ü  see 予稿

太字は正解を、緑字は推定結果を示す。


実験: BiLSTM+CNNs+CRF (結果概要)

NEの長さ精度 (開・試1) 再現率 (開・試1) 精度 (開・試2) 再現率 (開・試2)

1 0.852 0.827 0.817 0.764

2 0.788 0.835 0.760 0.790

3 0.673 0.731 0.704 0.725

4 0.649 0.652 0.650 0.671

5 0.492 0.570 0.602 0.634

6 0.508 0.561 0.583 0.597

7 0.526 0.625 0.583 → 0.564 0.597 → 0.543

8 0.522 0.600 0.541 0.333

9 0.600 0.250 0.417 0.370

9超 0.458 0.297 0.327 0.321

全体 0.791 0.797 0.751 0.737


実験: BiLSTM+CNNs+CRF (ミスの分析)

本来より長くラベルを付与したケース: ü  see 予稿

本来より短くラベルを付与したケース: ü  see 予稿


まとめ

ü  レビュー・テキストにNLP技術を適用するタスクとして、食べログデータにNER技術を適用して食べ物・飲み物表現の抽出を試みた。

ü  従来から使われているCRFベースのNERのモデルでは、再現率が低くなる傾向が見られた。短いNEを複数含む行や未知の短いNEの処理において失敗が目立った。

ü  SoTAであるBiLSTM+CNNs+CRFベースのNERのモデルでは、(短い) NEで本来より長く・短くラベルを付与する失敗が目立った。

精度・再現率の両方でまだ改善が必要。

Documents

レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

レストラン・レビューにおける食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス容量 (MB) 形態素数 (万)