22
株式会社タイムインターメディア 日本語全文検索システム Kabayaki 日本発の、日本語文書のための、日本語に強い検索システム

日本語全文検索システム Kabayaki

Embed Size (px)

DESCRIPTION

http://www.kabayaki.jp/ 日本発、日本語文書のための、日本語に強い検索システム http://www.kabayaki.jp/kabayaki20111020.pdf

Citation preview

Page 1: 日本語全文検索システム Kabayaki

株式会社タイムインターメディア

日本語全文検索システム Kabayaki

日本発の、日本語文書のための、日本語に強い検索システム

Page 2: 日本語全文検索システム Kabayaki

Page 2

日本語全文検索システム

!   ファイル名検索はファイル名のみを対象

!   ファイル内文字列検索は特定のファイルの中に

含まれる文字列を検索

—―—―であるのに対し、

!   全文検索システムは、複数の文書 (ファイル等)

から特定の文字列を検索

→ 情報をすぐに取り出し、情報資産を有効活用

することを強力に支援

!   日本語全文検索システム Kabayaki とは:

!   オープンソースの検索エンジン Namazu

がベース

!   Namazu をおいしく調理したから「Kabayaki」

!   Namazu の優れた部分を生かしつつ、簡単

に利用できる検索エンジンを目指した

!   技術者のみを対象のツールではなく、誰にで

も扱えるツール

- 全文検索システムとは? -

Page 3: 日本語全文検索システム Kabayaki

Page 3

Kabayaki  製品シリーズ

Kabayaki  Enterprise  Search  (Linux  用  /  Windows  用)

日本語全文検索システム  Kabayaki の最上位モデル。

シソーラス検索  (類義語検索) 機能、セキュリティ機能が、企業の求める社内知識の有

効活用と安全性重視の両方に応えます。データベースも負荷をかけずに検索対象に。

Kabayaki  Basic  (Linux  用  /  Windows  用)

価格性能比に優れた日本語全文検索システム  Kabayaki の基本モデル。

事前に自動収集した文書情報  (インデックス) を基にする高速検索、多様な文書形式

への対応などの  Kabayaki 基本機能が、知識の有効活用に貢献。

Page 4: 日本語全文検索システム Kabayaki

Page 4

Kabayaki  Basic

!   容易な導入とメンテナンス!   管理・設定等は、管理画面上から簡単に実行可能

!   インストールも容易

!   様々な文書形式に対応!   Word/Excel/PowerPoint、PDF、RTF、一太郎、OASYS  に対応

!   Word/Excel/PowerPoint、PDF  等のプロパティ  (タイトル等)  の検索に対応

!   Web  スパイダ!   インターネット上や社内の  Web  サイトの情報を自動的に収集

!   動的ページにも対応可能

Web スパイダ 高精度文書 フィルタ

Kabayaki Basic

Kabayaki GPL (フリー)

Namazu 管理画面

Page 5: 日本語全文検索システム Kabayaki

Page 5

日本語全文検索システム  -  使いやすい検索  -  使用前

フォルダごとに情報が 整理されているはずでも、 目的の文書は結局、 何か所も探してやっと 見つけることが多い

Web サイトがメニューで

階層化されていても

サイトマップがあっても、

不慣れな閲覧者が道に

迷うことはある

営業資料のフォルダの中の

どこかに絶対あるはずだと思って、

ずっと探していたら、

実は大阪支社の営業部のフォルダに、

その資料が入っていた。

!   目的の文書は結局何か所も探してやっと見つけることが多い  

この会社の営業の人が

言っていた◯◯。

サイトを見ればわかると思ったんだけど。

製品? サービス? 製品は製品で

いろいろな種類に分類されている。

どれを見れば……?

Page 6: 日本語全文検索システム Kabayaki

Page 6

日本語全文検索システム  -  使いやすい検索機能  -  使用後

q

!   キーワードを入力して、検索ボタンを

押すだけで OK

!   全文検索システムだから本文も検索対象

フォルダ名やファイル名、リンクのテキス

ト文字列のみを頼りに探し回る必要なし

!   検索結果には直感的にわかりやすい

グラフィカルなスコアバー表示

!   検索結果の一覧が表示されたら、

見たい文書を選んでクリックするだけ

Page 7: 日本語全文検索システム Kabayaki

Page 7

日本語全文検索システム  -  高速な検索  -  使用前

検索に数十秒から数分かかることがある。 アクセスが集中している時間帯は特に遅い。

検索した後で、今度は内容を見るために文書サーバーか DB サーバーに またアクセスしたりするもの面倒。

利用者が検索を実行するたびごとに 文書サーバーの文書を全部探しにいったり

DB サーバーに検索のリクエストを出したりしているから それらのサーバに負荷がかかって処理が重くなるのは

しょうがないよね… … 。

Page 8: 日本語全文検索システム Kabayaki

Page 8

日本語全文検索システム  -  高速な検索  -  使用後

!   検索用のインデックス (索引) をつくる方式の全文検索システムは高速検索が可能

!   検索にかかる時間は、文書の量に比例しない

!   検索のたびごとに、参照するのは検索用のインデックス

検索対象が格納されているサーバーを都度参照するわけではない

!   負荷が負荷を呼ぶ事態から利用者を解放

Page 9: 日本語全文検索システム Kabayaki

Page 9

日本語全文検索システム  –  文書収集機能  -  使用前

うちの会社の Web サイトに掲載されている情報なのに

なぜか検索できないことがあるんだけど?

外部の検索ポータルは、いつ

どのように文書を拾ってくれるか、わかりません。

特に動的なページで構成されていると

なかなか思うようにいきません。

Kabayaki なら自由自在に、

きめ細かな設定が可能です。

!   ポータルの検索エンジンでは検索対象を思うように指定できない  

ポータルの検索エンジンで検索するのと

どう違うの?

Kabayaki のようなエンタープライズサーチは

企業内検索システムの名のとおり

インターネットに公開していない社内文書も

データベースの内容も検索できます。

Page 10: 日本語全文検索システム Kabayaki

Page 10

日本語全文検索システム  –  文書収集機能  -  使用後

!   自社・自組織で所有する検索システムなら、こちらの都合にあわせて検索対象を自在に指定可能

ディスク上のファイルはもちろん、Web ページやデータベースも検索対象にすることが可能。

データベースの検索機能は、

既存のシステムやデータベースを

そのまま利用可能。

インターネット上の Web サイトや

社内や内部の Web サイトの情報を収集するにあたって、

きめ細かい設定が可能。

外部の検索ポータルが苦手とする動的ページの

収集に対しても期待通りの結果を出すことができます。

Page 11: 日本語全文検索システム Kabayaki

Page 11

日本語全文検索システム  -  高速な検索の理由  –  索引検索方式

高速検索と検索実行時の負荷軽減を可能にする事前のインデックス作成

!   検索用のインデックス (索引) をつくらない逐次検索方式は:

!   UNIX の grep コマンドと同様に対象文書を走査 (最初から最後まで全参照) して検索

!   検索するたびに対象文書をすべて参照するので、検索速度は遅い

!   検索用のインデックス (索引) をつくる索引検索方式は:

!   本の索引と同様の構造をもつ転置インデックスを更新時に準備

!   転置インデックスに、各語を含む文書の情報が、検索語をキーとして取り出しやすい形式

で格納されているので、検索速度は速い

単語  1 文書  1、文書  3

単語  2 文書  2、文書  3、文書  5  、文書  6

単語  3 文書  4

Page 12: 日本語全文検索システム Kabayaki

Page 12

Kabayaki  Enterprise  Search  とは?

Kabayaki Enterprise Search

シソーラス検索 検索ログ分析

Web スパイダ 高精度

文書フィルタ

Kabayaki Basic

Kabayaki GPL (フリー)

Namazu 管理画面

DB スパイダ

Kabayaki Basic の特徴に加えて…

!   シソーラス検索機能

!   初期辞書 (約16万語) を標準実装

!   ユーザー辞書・ユーザー語の追加も容易

!   検索ログ分析機能

!   検索キーワードや時間帯・月日別の

各種ランキングの集計結果をグラフ化

!   データベーススパイダ

!   既存のシステムや、データベース

スキーマに手を加えることなく

簡易導入が可能なデータベース検索

Page 13: 日本語全文検索システム Kabayaki

Page 13

日本語全文検索システム  -  シソーラス検索機能  -  使用前

この前の「プリンター」が不調だったとき 社内の文書を検索しても解決策がわからなかった。

この前のアレなら、ちゃんと対処法が 文書化されているはずなんだけどな。

情報システム担当者にも同じことを言われた。 「プリンター」ではなく「プリンタ」で検索すれば

方法がちゃんと見つかったのにって……。 プリンタプリンター印刷装置

Page 14: 日本語全文検索システム Kabayaki

Page 14

日本語全文検索システム  -  シソーラス検索機能  -  使用後

!   シソーラス検索 (類義語検索) が

「表記の揺れ」や「表現の差」を吸

!   検索キーワードの類義語を含ん

だ検索を実行

!   たとえば「プリンター」と入力する

だけで「プリンタ」も「印刷装置」

も検索可能

!   検索キーワードの差異による検

索漏れを防止

Page 15: 日本語全文検索システム Kabayaki

Page 15

日本語全文検索システム  -  シソーラス検索機能  –  実現方法

全文検索における難関「適切な検索語の選択」をシソーラスで、ある程度解決

!   表記のゆれの解消

1.  「TIM」 → 「TIM」 (全角と半角)

2.  「一月」 → 「1月」 (漢数字と英数字)

3.  「スパイダ」 → 「スパイダー」 (長音)

4.  「打合せ」 → 「打ち合わせ」 (送りがな)

5.  「大學」 → 「大学」(異体字)

→ いくつかの字句統制のためのルールと、異体字等の辞書で実現可能

!   同義語を一括検索

1.  「TOB」 → 「株式公開買付」等の同義語についても自動的に検索

2.  「試用版」 → 「体験版」、「お試し版」等の同義語についても自動的に検索

3.  「ミーティング」 →「会議」 「打ち合わせ」等の同義語についても自動的に検索

→ 同義語を展開するための辞書が必要 (名詞中心に基本語 10万語以上が必要と言われています)

Page 16: 日本語全文検索システム Kabayaki

Page 16

日本語全文検索システム  -  シソーラス検索機能  –  Web  ベースの管理画面

類義語辞書 データベース

Excel 等で作成した類義語一覧を CSV 形式で保存してインポート可能

類義語辞書のデータベース化 (SQLite) により多数の登録語にも対応。

それぞれの語が ID を持ち見出し語と類義語の関係や属性は ID により関連付け

られるためサイズが必要以上に肥大化しない

見出し語 類義語

タイム 時間

タイム 歳月

時間 タイム

類義語辞書作成

見出し語の検索・一覧表示

見出し語の追加・修正

類義語の一括登録・書き出し

類義語の検索・一覧表示

類義語の追加・修正

管理者の負荷を軽減する  Web  ベースの管理画面  (類義語辞書管理)

Page 17: 日本語全文検索システム Kabayaki

Page 17

日本語全文検索システム  -  セキュリティ機能  -  使用前

ファイルへのアクセス権がなければ

その文書を開くことはできないし

検索結果での内容の一部表示を

抑止することもできます。

日本語全文検索システムは

便利だろうと思うし興味があるけど

部外秘の情報だろうが何だろうが

検索結果一覧に表示されてしまうと困る。

でも、うちの場合は、フォルダ名やファイル名、

それにタイトル自体にも、他部署に知られると困る

機密情報が含まれていることがあるから……。

Page 18: 日本語全文検索システム Kabayaki

Page 18

日本語全文検索システム  -  セキュリティ機能  -  使用後

!   OS 側のアクセス制御機能 (Active

Directory 等) によるファイルの権限

情報との連携が可能

!   その検索利用者が参照する権限を

持つファイルのみが検索結果の一

覧に表示

!   検索結果に表示される文書の内容

の一部、ファイルやフォルダの名前

などから機密情報が漏れる

心配がない

Page 19: 日本語全文検索システム Kabayaki

Page 19

日本語全文検索システム  -  セキュリティ機能  –  

Active  Directory  との連携

各ユーザーは Active Directory 等で定義されているファイル権限に応じた検索結果を取得する

ユーザー情報の権限を事前に自動収集し 検索実行時にそのデータを使用

A

B

C

ユーザー A に アクセス権の ある文書のみ 検索結果に 表示

ユーザー B に アクセス権の ある文書のみ 検索結果に 表示

ユーザー C に アクセス権の ある文書のみ 検索結果に 表示

クライアント PC A

検索結果

検索結果

検索要求

検索要求

検索結果

検索要求

クライアント PC B

クライアント PC C

Page 20: 日本語全文検索システム Kabayaki

Page 20

事例  1:  某総研会社様向け社内検索システム

!   大量の社内文書を迅速かつセキュアに検索可能な社内検索システム構築

!   背景・課題•  各種プロジェクトで蓄積された大量の文書から、必要な文書を迅速に見つけ出すことを希望

•  全文検索システムの導入により、ファイル名や文書の一部が検索結果に表示され、社内の誰もが見ることが可能な状況になるのは、セキュリティ上問題があると判断

!   導入効果•  Kabayaki の高速・高精度な検索による快適な知識の共有と有効活用

•  Active Directory のアクセス制御と連携するセキュリティ機能により、閲覧権限のない

利用者には文書の存在自体が不可視な、セキュアな企業内検索システムが運用可能

Page 21: 日本語全文検索システム Kabayaki

Page 21

事例  2:  某エネルギー関連会社様向け社内検索システム

!   拠点間を横断して文書を検索することが可能なシステムの構築

!   背景・課題•  国内各地に点在する拠点で保持する、研究結果レポートなどの情報資産の有効活用を希望

•  文書のファイル形式は様々で、社内で独自に開発したソフトウェアの出力したファイルも存在

•  文書サーバーが全国拠点に散在していることも、求める情報にたどりつくことを困難にしていた

!   導入効果•  Kabayaki 標準装備の幅広い文書形式に対応する文書フィルタ (テキスト抽出用) を活用

•  独自形式のファイルに対しても、機能追加が容易な構造の利点を生かし、柔軟に対応

•  Kabayaki が Web 経由で全拠点の文書を収集し、統合サーバー上でインデックスを構築して、拠点をまたがる横断検索が実現

Page 22: 日本語全文検索システム Kabayaki

Page 22

お問い合わせ先

製品のお問い合わせ先

!   株式会社タイムインターメディア

〒160-0002

東京都新宿区坂町 26-27 IPB

Tel: 03-5362-9009

Fax: 03-5362-9008

E-Mail: [email protected]

! Kabayaki オフィシャルサイト

http://www.kabayaki.jp/ 

!   担当部署

プロダクトサービス事業部