Upload
justsystems-corporation
View
488
Download
4
Embed Size (px)
Citation preview
拡張型 NLP 『 JMAT 』における実利用に向けた形態素解析のリソースチューニング2017 年 3 月 6 日株式会社ジャストシステム
CPS 事業部開発部 AI チーム北浦雅子・紀伊馬章
目次1. 各種紹介2. JMATの特長3. JMATのリソースチューニング -コーパス -辞書4. まとめ
2
会社紹介
設立1981年 6月 2日 ※創立 1979年 7月 7日
本社所在地東京都新宿区西新宿6-8-1 住友不動産新宿オークタワー
事業内容「ことば」や「ドキュメント」をコンピュータで扱うための技術やノウハウの研究を中核とした、ソフトウェア製品の開発と販売、および関連するサービスの提供を行う。提案型の自社商品開発が特徴。
3
商品紹介一太郎・ ATOK のような個人向けだけではなく企業・学校・官公庁といった法人向けにも役に立つ商品を提供
4
一太郎 ATOK
ソーシャルセレクトショップ 転職情報サイト
医療向け入力・変換ソフト /オフィス統合ソフト
商品紹介-自然言語処理の関与が大きい商品
5
一太郎 ATOK
医療向け入力・変換ソフト /オフィス統合ソフト
※ ほぼすべての商品に何らかの自然言語処理が関与
ソーシャルセレクトショップ 転職情報サイト
35 年以上の歴史をもつ日本語入力システム ルールベースの「n文節最長一致」がベース ATOK2007 以降「ハイブリッドコア」を採用 ATOK2017 で「ディープコアエンジン」を採用人の知識と機械学習の融合によりさらなる進化を
企業内検索システム 独自アルゴリズム「NL -Vgram 」を搭載 辞書と統計情報によるハイブリッドアプローチ4,100 社超の導入実績をもつ最強の検索システム
自然言語処理をフル活用した代表的な商品
6
自然言語処理を担う AI チーム
7
ミッション「繊細な自然言語処理」による課題解決
• 課題解決に最適な解決策を提供するための技術選択最適な技術 ≠ 最新の技術
• ユーザーや商品要件にあわせた徹底的なエラー分析・洗練数値的な高精度 ≠ ユーザー満足度
• 統計・機械学習とルールベースのハイブリッド・アプローチユーザー満足度を高めるための「例外との格闘」
体制開発チーム:主にプログラム担当辞書チーム:主にデータリソース担当
辞書チームの役割-
8
「繊細な自然言語処理」
徹底的な分析・検証
最適な技術選択
統計・機械学習とルールベースのハイブリッドアプローチ
リソースの作成・洗練 開発チームとタッグを組み 商品レベルに仕上げ 徹底的な分析・検証 技術を実用レベルに引き上げる ための分析、ワークフローの策定
ジャストシステムクォリティの 商品に仕上げる
目次1. 各種紹介2. JMATの特長3. JMATのリソースチューニング -コーパス -辞書4. まとめ
9
JMAT とは?JustSystems Morphological Analysis Technorogy
ATOK 、 ConceptBase で培ったノウハウと機械学習を融合した日本語解析エンジン本日は、このエンジンにおける形態素解析のリソースチューニングのお話です
10
JMAT の特長 (1/2) -高精度・高機能
高精度世界最強 ( 自称 )
高機能 機能 1 :多彩な正規化
日本語特有の様々な表記揺れを正規化機能 正規化例
正規化前 → 正規化後半角・全角の正規化 ファイル → ファイル大文字・小文字の正規化 Web、WEB → webカタカナ表記の正規化 アイシャドウ → アイシャドー異体字の正規化 渡邉、渡邊 → 渡辺送り仮名の正規化 受け付け、受付け → 受付その他の正規化 穴子、あなご → アナゴ 11
JMAT の特長 (2/2) -高機能
高機能機能 2 :用途に応じた単語長の選択
例)テキストマイニング…長単位、全文検索…短単位
機能 3 :打ち言葉特有のくだけた表現の解析 小書き、俗語、長音の挿入などへの対応
長単位例 短単位例東京都 東京+都経営者 経営+者桜もち 桜+もち
表記例 正規化例ぉぃしぃ おいしいうめえ うまいぜーーったぃ 絶対
12
目次1. 各種紹介2. JMATの特長3. JMATのリソースチューニング -コーパス -辞書4. まとめ
13
JMAT -初期段階
開発テーマ高精度・高機能な形態素解析器開発※CRF ・数百万文のコーパスを使用
実験結果○ :当社旧形態素解析器以上の精度を達成× :解析傾向に説明性がない=分析・洗練作業が困難 ・解析結果に大量の差分が発生(改善も多いが、改悪も多い…) ・解析傾向が不明(難しい事例が解析できても、簡単な事例で誤る…)
→ 数値的にはよいが、商品化には難あり!14
JMAT -初期実験結果を踏まえた方針の変更
開発テーマ 2高精度・高機能で、分析・洗練作業が可能な形態素解析器開発
方針の変更数百万文のタグ付きコーパスで学習
小規模だが標準的な機能表現を網羅した斉一で高品質なタグ付きコーパスで学習
15
JMAT のコーパス作成の要点
小規模だが斉一で高品質なタグ付きコーパス 網羅性標準的な機能表現を網羅
∵解析誤りを抑制 一貫性基準のすりあわせとクロスチェックを繰り返し、斉一で高品質なタグ付けを実施
∵極力解析揺れを抑制
→大規模化は困難な手法だが、上記の徹底により初期精度 より高精度で、ある程度説明性のある解析を実現
16
JMAT -商品化に向けた課題解決
新しい形態素解析器商品化のための課題解決
課題 1 :当社旧形態素解析器からの改悪抑制→数百万文コーパスから誤り事例を追加し再学習
課題 2 :洗練手法の確立→部分アノテーション学習
課題 3 :例外を押さえ込む手法の確立→言語知識導入
JMAT 商品化に向けた目処が立った!17
目次1. 各種紹介2. JMATの特長3. JMATのリソースチューニング -コーパス -辞書4. まとめ
18
JMAT の辞書
汎用辞書様々な用途での利用を想定した汎用的に使用できる辞書
特化辞書特定用途での利用を想定した目的に特化した課題解決のための辞書
• 分野限定であれば適用可能な語彙を登録し、汎用辞書にプラスオンで形態素解析をおこなう →「分野別辞書」
• 形態素解析結果の取得が目的ではなく、用途に特化した処理をおこなう →「特定ドメイン専用辞書」
ユーザー辞書
19
汎用辞書-概要
登録語彙数65 万語以上
更新頻度3ヶ月ごと
更新例
20
更新時期 追加語彙例2017 年 1 月 トランプノミクス、ヌーハラ、パクチスト、結浜、ラッカ2016 年 10 月 溶材、こにゅうどうくん、まいばすけっと、エンジェニョン2016 年 7 月 ニホニウム、フォギー、家事メン、ヤメ検、纒向2016 年 4 月 菌活、素っ破、バスタ新宿、スカンツ、ロカボ、ペヨング
汎用辞書-登録方針
「かたい表現」から「やわらかい表現」まで幅広く登録
登録時留意事項 説明性
• 一貫性(品詞付与基準、分割単位、正規化表記など)• 規範主義も意識しつつ、記述主義も意識
新語• 一般的なものはなるべく登録
ただし一過性のものは登録しない
弊害回避• 登録することで新たな誤解析を生む場合は原則見送る
21
汎用辞書-登録情報
高精度・高機能を実現するために必要な情報を付加表記
• 読み情報も含む
品詞• 公開品詞は約 60種類• 内部品詞は 600種類以上
正規化情報• 汎用的な利用を想定した、説明性のある「表記の正規化情報」
単語長• 単語長の切り替えを考慮した分割情報
22
辞書チューニング時の留意事項
次の点に留意してチューニングを実施
既存顧客への影響は極力回避• 特にもともと正解析のものはできるだけ維持
影響する変更の場合は説明性を担保できること• 多くの顧客に広く共通する改善である場合は変更• メリットが特定シーンに限られる場合は顧客別の対応と する場合も
23
汎用辞書への語彙追加-登録ステップ
汎用辞書への語彙追加は、次の 3 ステップで実施
1. 登録候補収集
2. 登録候補選別
3. 登録結果検証
次ページ以降で順に説明します24
汎用辞書への語彙追加- 1. 登録候補収集
登録候補の収集よく使われそうな表現を多様なジャンルから収集
• 定期的な収集Web/ SNS/社内データ
• 適宜収集日々の蓄積/要望
など
25
汎用辞書への語彙追加- 2. 登録候補選別
登録候補の一次選別• 正解析の候補を除外• 過去に検討済みの候補も原則除外
登録時留意事項による選別• 顧客への説明性に欠ける候補や一過性の候補などを除外
登録対象整備• 既存語彙との整合性確保(登録時/解析時)• 必要情報の付加• 類似語彙の収集と追加
26
汎用辞書への語彙追加- 3. 登録結果検証
既存の解析結果への影響確認• 悪影響があれば影響範囲・重要度に応じて対策
さらなる登録エントリーの追加 言語知識導入
• 影響範囲・重要度によっては見送り 分野別辞書にて回復の余地あり
27
分野別辞書への語彙追加-特化辞書
汎用辞書に登録すると弊害が生じたり、影響が大きかったりするが、分野限定であれば適用可能な語彙を登録
食品・料理辞書例 1 )「お通し」:お通しください
解釈 1 )通してください解釈 2 )「お通し」をください
例 2 )「劇辛いか」:劇辛いか解釈 1 )とても辛いか?解釈 2 )とても辛いイカ
以上のように複数解釈可能だが、「食品・料理」の分野限定であれば解釈 2 を優先しても問題になりにくい 28
形態素解析目的ではなく、情報抽出目的で語彙を登録
目的例)各企業の求人ページから職種名を認定し、タグ化• 各企業の求人ページに出現し得る職種名(認定)• 一般的に職種としてイメージしやすい職種名(タグ化)
「法人営業」の出現バリエーションを専用辞書に登録 ・コーポレート営業 ・ BtoB 事業分野における営業職 ・ソリューション化および提案営業
特定ドメイン専用辞書への語彙追加-特化辞書
29
認定してタグ化
目次1. 各種紹介2. JMATの特長3. JMATのリソースチューニング -コーパス -辞書4. まとめ
30
JMAT の主なリソースチューニング
コーパス ベース学習用コーパス
• 小規模だが標準的な機能表現を網羅• 斉一で高品質なタグ付けを実施
部分アノテーション学習用コーパス• 教えたい部分のみタグ付けを実施
辞書 汎用辞書
• 既存顧客への影響は極力回避• 影響する変更の場合は説明性を担保
特化辞書(分野別辞書・特定ドメイン専用辞書)• 課題解決のための最適解を提供
31
付録
本日詳しくお話ししなかったトピックなど、関連するスライドは、下記に公開しています。
https://www.slideshare.net/JSUXDesign/presentations
※本日のスライドも、後日公開予定です。
なお、 JMAT にご興味のある方は下記をご覧ください。 http://www.atok.com/biz/jmat.html
slideshare ジャストシステム 検索
32
JMAT ジャストシステム 検索
AI チームメンバー募集!
以下にご興味のある方、 ぜひ AI チームメンバーになってください! 開発チームも辞書チームも募集しています!!
自然言語処理を活用した提案型の自社商品開発「繊細な自然言語処理」による課題解決自然言語処理技術の商品化
33
新たな出会い、お待ちしています♪