MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"

May, 2014

MySQLと組み合わせて始める全文検索プロダクト”elasticsearch”Kentaro Yoshida in 最新インフラエンジニア技術勉強会@ドリコム

1. 自己紹介2. はじめに3. 今回のテーマ4. Yamabikoの紹介5. 新作の紹介6. まとめ

本日の流れ

1. 自己紹介

自己紹介

•よしけんさん• (株)リブセンス•Web系インフラの研究開発エンジニア

• elasticsearch歴：2013年初夏～

好きなプロダクト

お知らせ

2. はじめに

こんなお悩みを抱えていませんか？

MySQLを利用している

だけれども、

モダンな検索機能が欲しい

インクリメンタルサーチ

ファセット検索

サジェスト機能

位置情報検索

ネスト構造を用いた検索

案件に紐づく最寄り駅情報等に便利（elasticsearchにあってSolrには無い機能）

RestfulなAPI

そして、

検索漏れが少ない日本語全文検索

“Kuromoji”を使いたい！

Searchモード・Extendedモードが秀逸

そんな時には

“elasticsearch”がいまアツいです

“elasticsearch” v1.0.02014年2月にリリース

“elasticsearch”の時代がやってきた

これは使いたい！

しかし課題が残る

“MySQL”とのデータ連携28

3.今回のテーマ

今回のテーマ

実データを用いて手軽にelasticsearchと連携した検索を行いたいelasticsearchをスモールスタートで使い始めたい既存プログラムの更新系処理に触れずに小さく始めたい

メインRDBはMySQLではあるが、検索のみelasticsearchを使う構成Amazon RDS for MySQLにも応用できる手離れの良い構成にしたい

MySQLサーバの管理無しに冗長化構成を実現できる (Multi-AZ)

MySQLのレコードをelasticsearchへ同期したい

つまり異種RDB間のデータ同期

そこで！

欲しいものが無いので作りました

4. Yamabiko

Yamabiko

https://github.com/y-ken/yamabiko

��

�� !"#$��%&'(��")*

� �� +,-./0�1�2345%6789:

��

Yamabiko

概要MySQLからelasticsearchへデータを非同期に逐次反映Amazon RDS・MariaDB・PerconaServer等の互換DBにも対応

elasticsearchとは別の単体ミドルウェアとして動作

CentOS 6.x向けのRPMパッケージとして配布中任意のSQL文の結果の差分から、insert/update/deleteイベントを検知

SELECT * FROM contents WHERE DATE_ADD(updated_at, INTERVAL 5 MINUTE) > NOW(); といったクエリで差分同期も可能

Yamabiko

ユニークな特徴：delete検知が出来るPrimaryKeyのギャップ判定を行うことで実現行が物理削除されてしまうケースでも追従可能

数十万行単位でも動作します

なぜ更新ログ(BinaryLog)ではなくSQLの結果を同期するのか？JOIN無しで検索するnoSQL的概念に対応させるため非正規化VIEWテーブルを作ることを想定

Yamabikoシステム構成例

mysql_replicator_multi を利用する場合Yamabikoが使うメタデータを格納するためのMySQLを指定同期情報管理テーブル更新/削除判定用のハッシュテーブル

同期する行数がさほど無ければデータ参照元に相乗りしても良い

INSERT/SELECT

全文検索

しかし新たな課題が生まれる

Yamabikoの差分検知速度が遅い問題

各行のハッシュ値の比較を行うため

そこで作りました！

5. 新作の紹介

elasticsearch_mysql_importer

特徴MySQLからelasticsearchへデータを流し込む手間を最小化するツールYamabiko同様に、ドキュメントのネスト構造化が可能

Yamabikoで実現した差分検知を行い、差分更新/削除をするよりも、indexをその都度作り直し、都度完全同期する方が高速であったelasticsearchのBulk APIを利用するためのファイルを生成する機能基本的にそれだけのため、とてもシンプル

GitHub.com・ RubyGems.org にて「本日」公開！

elasticsearch_mysql_importer

https://github.com/y-ken/elasticsearch_mysql_importer

利用例

実装無しにelasticsearchにMySQLのレコードを流し込んで検索したい

1レコードに複数紐付く属性情報（最寄り駅・友達リスト）などを、ネスト構造で持たせて検索したい

非リアルタイム更新で差し支えないWebサービスでの利用

求人情報・賃貸物件情報・グルメ情報・商品情報・口コミ情報など

都度インデックスを作り直すため、小規模～中規模のWebサービスに最適

100MB / 100万件程度のデータボリュームを想定

indexの設計例

全文検索情報を更新する度に、利用するindexを切り替える手法稼働中のindexには触れずに、都度新たにindexを生成する RDBに接続先のindex名を保存してアプリ側から動的に利用する例: index名-group_a, index名-group_b の2つをローテーション例: index名-2014.05.23_210020（2014年5月23日 21:00:20）index毎にLuceneのshardが作られるため、影響の限定化が可能（更新中の不正終了等でデータが壊れるときはindex単位のため）

想定システム構成

利用サーバをデプロイ毎に切り替える、blue-green deployment手法

使い方

# レポジトリをクローンする$ git clone https://github.com/y-ken/elasticsearch_mysql_importer.git$ cd elasticsearch_mysql_importer$ bundle install --path vendor/bundle

# exampleファイルのMySQLの接続先やクエリを書き換える$ vim example.rb

# スクリプトを実行し、Bulk APIで登録するファイルを生成$ bundle exec ruby example/example.rb

# 生成された”requests.json”をelasticsearchへPOSTする$ curl -s -XPOST localhost:9200/_bulk --data-binary @example/requests.json

使い方

# レポジトリをクローンする$ git clone https://github.com/y-ken/elasticsearch_mysql_importer.git$ cd elasticsearch_mysql_importer$ bundle install --path vendor/bundle

# exampleファイルのMySQLの接続先やクエリを書き換える$ vim example.rb

# スクリプトを実行し、Bulk APIで登録するファイルを生成$ bundle exec ruby example/example.rb

# 生成された”requests.json”をelasticsearchへPOSTする$ curl -s -XPOST localhost:9200/_bulk --data-binary @example/requests.json

使い方

$ cat example.rbrequire 'elasticsearch_mysql_importer'

importer = ElasticsearchMysqlImporter::Importer.newimporter.configure do |config| config.mysql_host = 'localhost' config.mysql_username = 'your_mysql_username' config.mysql_password = 'your_mysql_password' config.mysql_database = 'some_database'

# ネスト構造にする際に設定（オプション） config.prepared_query = 'CREATE TEMPORARY TABLE ...snip...'

# 取り込むクエリを指定（必須） config.query = 'SELECT ...'

# elasticsearchのユニークキーに使うキーを指定（必須） config.primary_key = 'member_id'

# elasticsearchに登録するindexとtypeを指定（必須） config.elasticsearch_index = 'importer_example' config.elasticsearch_type = 'member_skill'

# ファイル出力先のパスを指定（必須） config.output_file = 'requests.json'end

importer.write_fileputs importer.output_file

使い方

ネスト構造化の仕組み

51例としてこれらのテーブルを用いて解説します

$ curl -XGET http://localhost:9200/sample/member_skill/1?pretty{ "_index" : "sample", "_type" : "member_skill", "_id" : "1", "_version" : 1, "found" : true, "_source" : { "member_id" : 1, "member_name" : "ユーザA", "skills" : [ { "skill_name" : "PHP", "skill_url" : " /" }, { "skill_name" : "Ruby", "skill_url" : " /" } ] }}

$ curl -XGET

{ "_index" : "sample", "_type" : "member_skill", "_id" : "1", "_version" : 1, "found" : true, "_source" : { "member_id" : 1, "member_name" : "ユーザA", "skills" : [ { "skill_name" : "PHP", "skill_url" : "http://php.net/" }, { "skill_name" : "Ruby", "skill_url" : "https://www.ruby-lang.org/" } ] }}

-- prepared_query設定に記述する一時テーブル作成クエリCREATE TEMPORARY TABLE tmp_member_skill SELECT members.id AS member_id, skills.name AS skill_name, skills.url AS skill_url FROM members LEFT JOIN member_skill_relation ON members.id = member_id LEFT JOIN skills ON skills.id = skill_id;

-- query設定に記述する、elasticsearchへ登録するドキュメントを生成するクエリ。SELECT members.id AS member_id, members.name AS member_name, "SELECT skill_name, skill_url FROM tmp_member_skill WHERE member_id = ${member_id}" AS skillsFROM members ここを展開してネスト構造化します

-- クエリ実行結果にあるmember_idの値である1をプレースホルダに代入し、SQLクエリを実行します-- 実行結果を先ほどのskillsの値として代入しますSELECT skill_name, skill_url FROM tmp_member_skill WHERE member_id = 1

-- skillsの中を事前に作成したテンポラリテーブルから問い合わせた結果に置き換えてネスト構造化は完了です{ "member_id" : 1, "member_name" : "ユーザA", "skills" : [ { "skill_name" : "PHP", "skill_url" : "http://php.net/" }, { "skill_name" : "Ruby", "skill_url" : "https://www.ruby-lang.org/" } ]}

とても便利！

7. まとめ

まとめ

elasticsearch が本格的に使えるプロダクトへと成長した

elasticsearch_mysql_importer を使えば手軽に始められる

elasticsearch の国内トレーニングや日本語書籍もあります

http://purchases.elasticsearch.com/class/elasticsearch/core-elasticsearch/tokyo/2014-05-20

2014年7月14日～16日に開催されます

http://ascii.asciimw.jp/books/books/detail/978-4-04-866202-4.shtml

お知らせ

Thanks!

ご清聴ありがとうございました。

MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"

Technology

Ricerche performanti con ElasticSearch

Introduction to Elasticsearch

Case Kinghost + Elasticsearch

Elasticsearch par David Pilato [FR]

Elasticsearch intro output

Curso completo de Elasticsearch

Elasticsearch And Ruby [RuPy2012]

Elasticsearch 설치 및 기본 활용

Anwendungsfaelle für Elasticsearch

Elasticsearch 20150107

ElasticSearch: la tenés atroden Google

Elasticsearch at Makuake

Elasticsearch入門 pyfes 201207

Elasticsearch Authプラグインでアクセスコントロール

Elasticsearch x Autoscaling(AWS)

[2D1]Elasticsearch 성능 최적화

20151022 elasticsearch 적용및활용_송준이_sds발표용

Elasticsearch 5.0

ElasticSearch Introduction

Elasticsearch po slovensky