16
ベイシス・テクノロジー株式会社 www.basistech.jp Solr/Lucene 向け自然言語処理製品のご紹介 シニア・ソフトウェア・エンジニア 平賀 一昭

Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Embed Size (px)

DESCRIPTION

Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー株式会社 シニア・ソフトウエア・エンジニア 平賀一昭

Citation preview

Page 1: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

ベイシス・テクノロジー株式会社 www.basistech.jp

Solr/Lucene 向け自然言語処理製品のご紹介

シニア・ソフトウェア・エンジニア平賀 一昭

Page 2: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Basis Technology 概要

Basis Technology CorporationCarl Hoffman, CEO 以下MIT出身者を中心に、

1995年に設立

ベイシス・テクノロジー株式会社

2000年に、初の米国外オフィスとして設立

Page 3: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

カスタマー

この他にも、多くの検索エンジン、政府、軍/情報機関などで利用されてい ます。特にここ数年は、商用エンジンから、Solr/Lucene への移行とあわ せ、弊社自然言語処理プラットフォームの採用が増えています。

Presenter
Presentation Notes
言語処理ライブラリを検索エンジンや Sier さんへ販売している。一般的には知名度が無いと思う。 ただ、面白い話もあって、たまに、お前のところの形態素解析の精度が悪い。とお叱りを受ける。 先日も、某F社の検索エンジンのお客様から、これを形態素解析してみろ。とテキストを渡された。何でも、その検索エンジンでは形態素解析できず、Basisが悪いと言っているらしい。で、結果を渡すと、なんだBasisでちゃんと解析出来るんだ。という話になった。こういったインプリメンテーションの問題に関しては、何か良い解決策が無いか、模索しているところです。もし、Basisを採用している検索エンジンで、形態素解析に不満がある場合には、弊社にご連絡を頂けるとありがたいです。
Page 4: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Web などの非構造化データ、ある いは、JDBC経由でフィードされる データなど

Rosette® 言語処理プラットフォーム

010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 します。事前にWebページより参加登録をお願いします(参加 登録受付中)。

2009.11.24 2009.11.02 科研「情報爆発IT基盤」 評価助言委員会委員長の米澤明憲先生(東京大学情報 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。

Page 5: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Rosette® 言語処理プラットフォーム

010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 します。事前にWebページより参加登録をお願いします(参加 登録受付中)。

2009.11.24 2009.11.02 科研「情報爆発IT基盤」 評価助言委員会委員長の米澤明憲先生(東京大学情報 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。

構造化データ

Page 6: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Rosette® 言語処理プラットフォーム

Rosette®

言語判別

システム

Rosette®

Unicode対応

ライブラリ

Rosette®

形態素解析

システム

ユーザ個々のアプリケーショ ン

Rosette®

固有表現抽出

システム

API

Page 7: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

「言語」と「文字コード」を判別します

世界の55言語・39種類の文字コードを判別日本語、中国語、朝鮮語、英語、ドイツ語、フランス語、ロシア語 等

平均判別精度 : 99.45%日本語 JIS : 100%朝鮮語 EUC-KR : 100%中国語 GB-2312 : 100%※約1KBのデータを利用したテスト結果

Rosette® 言語・文字コード判別システム (RLI)

Page 8: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Rosette® 言語・文字コード判別システム (RLI)

対応言語数: 55

対応文字コード数: 39

対応する言語・文字コード

Page 9: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Unicode と外部文字コードの相互変換を行います

文字コード変換170種類以上の文字コードに対応

Shift-JIS ⇔ UnicodeGB18030 ⇔ Unicode

テキスト正規化大文字 ⇔ 小文字

Unicode TEXT ⇔ unicode text半角 ⇔ 全角

ABCカンパニー ⇔ ABCカンパニー

ひらがな ⇔ カタカナ

Rosette® ユニコード対応ライブラリ (RCLU)

Page 10: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Rosette® 形態素解析システム (RBL) : 日本語版の特徴

分かち書き(テキストを単語に分割)独自開発の解析アルゴリズム

50万語の形態素解析辞書を標準搭載し、6ヶ月ごとにアップデート

品詞出力、名詞句抽出

ユーザー定義辞書複数の辞書が使用可能

ストップワード判別「された」「の」、「は」、「か」などの不要語を認識

カスタマイズ可

「読み」の出力

自然文の入力を形態素へ分割します

Page 11: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Rosette® 形態素解析システム (RBL) : 日本語版の特徴 (cont.)

カタカナ表記ゆれ対応 (約 9,000 語)ダンスセラピー ← ダンスセラピ/ダンステラピー

ファミコン ← ファミリーコンピュータ/ファミリーコンピューター

ベネチア ← ベニス/ベネツィア/ヴェネチア/ヴェネツィア

漢字の旧字体サポート (約 89,000 語)渡辺 ← 渡邊

大学 ← 大學

高島 ← 髙島

類義語対応 (ユーザー辞書により対応可能)Honda ← ホンダ、本田技研工業

Page 12: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

ポルトガル語、オランダ語、ギリシャ語、ハンガリー語、ポーランド語、チェコ語、近代ペルシア語、ウルドゥ語にも 対応しています。

N - 未対応、n/a - この言語には該当せず

単語分割ステミング(基本化)

複合語分解 品詞解析 文尾検出 名詞句抽出 読み

日本語 ○ ○ ○ ○ ○ ○ ○

朝鮮語 ○ ○ ○ ○ ○ ○ N

中国語(簡・繁)

○ n/a n/a ○ ○ ○ ○

英語 ○ ○ n/a ○ ○ ○ n/a

アラビア語 ○ ○ n/a ○ ○ ○ ○

ロシア語 ○ ○ n/a ○ ○ N N

フランス語 ○ ○ n/a ○ ○ ○ n/a

イタリア語 ○ ○ n/a ○ ○ ○ n/a

ドイツ語 ○ ○ ○ ○ ○ ○ n/a

スペイン語 ○ ○ n/a ○ ○ ○ n/a

Rosette® 形態素解析システム (RBL) : 主要言語対応状況

Page 13: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

固有名詞抽出すべき語の「文脈パターン」を事前学習

人名、地名、組織名、施設名、国籍、役職等を識別

特定パターンの語句与えられた正規表現と一致するパターンの文字列

日時、電話番号、URL、製品型番など

ユーザー定義可能

用語辞書(ガゼティア)ユーザーが指定した語句との一致

固有表現(Named Entity)を抽出します

Rosette® 固有表現抽出システム (REX)

Page 14: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Rosette® 固有表現抽出システム (REX) : 主要言語対応状況

人名 組織名 場所 都市名 施設 役職

日本語 ○ ○ ○ ○ ○ ○

朝鮮語 ○ ○ ○ ○ ○ ○

中国語(簡・繁)

○ ○ ○ ○ ○ ○

英語 ○ ○ ○ ○ ○ ○

アラビア語 ○ ○ ○ ○ ○ ○

ロシア語 ○ ○ ○ ○ ○ ○

フランス語 ○ ○ ○ X X ○

イタリア語 ○ ○ ○ X X ○

ドイツ語 ○ ○ ○ X X ○

スペイン語 ○ ○ ○ X X ○

上記言語以外に、オランダ語、ポルトガル語、ウルドゥ語、近代ペルシア語をサポートしています。

Page 15: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

Rosette® 言語処理プラットフォーム : 提供形態

SDK による提供

シンプルなAPIのライブラリ各国言語共通のAPIC++, C, C#, Java アプリケーションから利用可

Solr/Lucene向けパッケージには、Analyzer/Factory ソースコードが付属

サポートプラットフォームWindows, Linux, Solaris, Mac OS X 等その他主要プラットフォームをサポート

ライセンス形態年間ライセンスなど

E-mail による技術サポート

Page 16: Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

次世代サーチ・テクノロジー・フォーラム 2010

主催:ベイシス・テクノロジー株式会社

開催日: 2010年4月22日(木)

時間: セミナー 9:30-16:30、 展示 12:00-16:30会場: 国際文化会館 (東京 六本木)

申込: 3月中旬より以下のURLで受付開始

http://www.basistech.co.jp/forum/2010/参加費: 無料

協賛パートナー