24
コーパス学習による Apache Solr の徹底活用 関口宏司@ロンウイット 1

コーパス学習による Apache Solr の徹底活用

Embed Size (px)

DESCRIPTION

第14回Solr勉強会の発表資料です。

Citation preview

Page 1: コーパス学習による Apache Solr の徹底活用

コーパス学習による Apache Solr の徹底活用

関口宏司@ロンウイット

1

Page 2: コーパス学習による Apache Solr の徹底活用

情報検索の性能指標ドキュメントの全体集合

2

Page 3: コーパス学習による Apache Solr の徹底活用

情報検索の性能指標

正解

3

Page 4: コーパス学習による Apache Solr の徹底活用

情報検索の性能指標

正解システム出力

4

Page 5: コーパス学習による Apache Solr の徹底活用

情報検索の性能指標

正解システム出力

A B C

精度 : P = B / ( A + B ) 再現率 : R = B / ( B + C )

5

Page 6: コーパス学習による Apache Solr の徹底活用

精度と再現率精度と再現率はトレードオフの関係にある!

6

Page 7: コーパス学習による Apache Solr の徹底活用

精度と再現率

正解

精度と再現率はトレードオフの関係にある!

7

Page 8: コーパス学習による Apache Solr の徹底活用

精度と再現率

正解システム出力

精度と再現率はトレードオフの関係にある!

高精度 低再現率

8

Page 9: コーパス学習による Apache Solr の徹底活用

精度と再現率

正解システム出力

精度と再現率はトレードオフの関係にある!

低精度 高再現率

9

Page 10: コーパス学習による Apache Solr の徹底活用

Apache Solr の徹底活用

表記揺れへの対応

絞り込み検索による 漸次的精度改善

ランキング チューニング

10

Page 11: コーパス学習による Apache Solr の徹底活用

Apache Solr の徹底活用

表記揺れへの対応

絞り込み検索による 漸次的精度改善

ランキング チューニング

11

Page 12: コーパス学習による Apache Solr の徹底活用

表記揺れへの対応後

正解システム出力12

Page 13: コーパス学習による Apache Solr の徹底活用

漸次的精度改善

13

Page 14: コーパス学習による Apache Solr の徹底活用

漸次的精度改善

正解システム出力

q=ハワイ

14

Page 15: コーパス学習による Apache Solr の徹底活用

漸次的精度改善

正解システム出力

予算(10~15万円) で絞り込む

15

Page 16: コーパス学習による Apache Solr の徹底活用

漸次的精度改善

正解システム出力

予算(10~15万円) で絞り込む

出発地(羽田空港) で絞り込む

16

Page 17: コーパス学習による Apache Solr の徹底活用

構造化文書

ID ツアー名 価格 出発地

1 ハワイオアフ島7日間 9万円 成田

2 ハワイオアフ島&マウイ島燃油込み 12万円 羽田

17

Page 18: コーパス学習による Apache Solr の徹底活用

非構造化文書はどうする?

• 非構造化文書の例

• WordやPDFファイル

• 新聞記事

• 書籍

18

Page 19: コーパス学習による Apache Solr の徹底活用

非構造化文書ID 記事

1 安倍首相は12日、甲府市で開かれた自民党ゴルフコンペで…

2 モスクワで開かれている世界陸上の男子100m予選で、日本の高校生桐生が…

: :

19

Page 20: コーパス学習による Apache Solr の徹底活用

非構造化文書の構造化ID 記事 人名 地名 イベント …

1 安倍首相は12日、甲府市で開かれた自民党ゴルフコンペで…

安倍 甲府市 ゴルフコンペ

2モスクワで開かれている世界陸上の男子100m予選で、日本の高校生桐生が…

桐生 モスクワ、 日本

世界陸上

: :

20

Page 21: コーパス学習による Apache Solr の徹底活用

アーキテクチャ

Update Request Processor

CRFsuite

Solr Index

ModelCorpus

Docs

21

Page 22: コーパス学習による Apache Solr の徹底活用

ビジネス志向のタグACCESS FOOD PLAN

DATETIME LANGUAGE PRINTING

DISEASE LOCATION PRODUCT

EVENT ORGANIZATION TITLE

FACILITY PERSON VEHICLE

22

Page 23: コーパス学習による Apache Solr の徹底活用

参考文献• Apache Solr 無料セミナー(毎月開催)

• http://www.rondhuit.com/services/seminars.html

• 情報検索のための自然言語処理ツール群の開発

• https://dspace.jaist.ac.jp/dspace/handle/10119/12033

23

Page 24: コーパス学習による Apache Solr の徹底活用

ご静聴ありがとう ございました

24