ジャストシステムの形態素解析技術その2 機械学習編

JustTechTalk #02

ジャストシステムの形態素解析技術その２

（機械学習編）

内田佳孝

CPS 事業部開発部 NLP チーム 2003 年入社、 12 年目

関わってきた技術形態素解析、かな漢字変換、情報検索、情報抽出、

　　レコメンド、 etc

関わってきた商品 JMAT 、 ATOK 、 ConceptBase 、 BONNE 、　 Listing Auto-Flight 、ピタジョブ、 etc

自己紹介

ATOK 、 ConceptBase で培ったノウハウと機械学習を融合した日本語解析エンジン

JustSystems Morphological Analysis Technology” ジャストシステムの形態素解析技術”

その１の復習

辞書追加 >>>>>> 新しい学習手法

新規手法開発より辞書

詳細は SlideShare に公開中の前回の資料をご覧ください

今回のテーマは学習手法

辞書

データ構造

学習手法

日本語（人手）

知識

便利モジュール

前回のテーマ今回のテーマ

形態素解析の問題設定

教師あり形態素解析辞書と教師データ（学習コーパス）が必要精度は高いが辞書と教師データの整備が大変 JMAT はこちら

教師なし形態素解析辞書と教師データ不要まだ研究段階半教師あり学習という考え方も存在

教師ありと教師なし

教師あり形態素解析

入力文字列中に含まれうる全単語を辞書を使って

列挙しグラフ構造（ラティス構造）を作成

もっともコストが小さい経路を探索

２つのコストの総和が最小の経路を求める単語生起コスト連接コスト

コスト推定方法人手 → JUMAN HMM （隠れマルコフモデル） → ChaSen CRF （条件付き確率場）→ MeCab 、 JMAT etc

教師あり形態素解析

JMAT の CRF の使い方

ベース学習小規模なコーパスで学習

能動学習ベース学習では解析できない事例のみ学習事例を追加し再学習、評価を繰り返す

部分アノテーション学習一部分だけタグをつけ学習分野適応

CRF を使った３つ学習手法

ベース学習

Web テキストコーパス

クラスタリング

フィルタリング

誤解析しそうなテキスト群

タグ付きコーパス（約 1 万文）半自動タグ付け

コーパス（約 300 万

文）

能動学習用コーパス

部分アノテーション学習

能動学習

JMAT ベースモデル

商品版JMAT

人手知識

【今回のテーマ】

ベース学習部分で

「なぜ300万文コーパスがあるのに1万文しかつかわないのか」

【注意】ここから先、精度数値がでてきますが

弊社独自のコーパスでの評価となります他研究との数値比較は意味を持ちません

CRF の性能

4 万文同じ学習量なら HMM よりCRF の方が高精度

4 万文での精度

ジャストシステムの旧エンジンの方が高精度

コーパスを増やせば旧エンジンを超える？

問題：メモリが足りない

4 万文で約 2.7G 必要300 万文だと 20G～ 30G 必

メモリにのらないと現実的な時間で学習ができな

メモリを積む 64GB のマシンを買った

けど、まだ複数の実験を同時にまわせない裏でかな漢字変換の実験もやってるかな漢字変換はもっとメモリを食う

解決方法その１

オンライン学習を使う

この検証をはじめたのは 2000 年代後半オンライン学習が現実的ではなかった（いまならオンライン学習でやってたかも）

解決方法その２

省メモリな CRF 学習器をつくるラティス構造の持ち方を工夫ノードには様々情報を持たせている同じノードがいっぱい出現する共有できる情報は全て共有

つくった CRF 学習器の性能 OSS の CRF 学習器の約 25% のメモリ使用量学習速度はほぼ同じスワップにおとさないモードも作成

解決方法その２

300 万文の精度

旧エンジンの精度を超えた！（ 10 万文あたりで超えました最高精度は 50 万文学習時）

商品搭載に向けて本格始動？

旧エンジンとの詳細な比較検証大量の差分がでてる改善も多いが、改悪も多い・・・

難しい事例が解析できている！簡単な事例を誤解析・・・

なぜ誤解析しているか分からない・・・コーパスを修正すればいい？ 300 万文も修正できない・・・何もしてないのに学習するたびに結果がかわる

辞書チームによる分析

分析・洗練作業ができないジャストシステムの得意技ジャストシステムのクオリティを保てないジャストシステムの NLP 技術にとっては致命的

この方向での商品化は断念・・・

辞書チームによる検証

CRF は使う

小規模なコーパスで旧エンジンを超える

旧エンジンからの改悪は極力抑える

洗練できる方法を用意する

（ついでに語彙・品詞体系も見直す）

方向転換

いちから必要なコーパスを検討しなおした 300 万文のコーパスの存在はいったん忘れるタグ付け精度、コンテンツの質 100 文ちょっとのコーパスで 90%近い精度がでる必要なコンテンツとは？

言い回しコーパス標準的な機能表現を網羅したコーパス徹底的なクロスチェック高精度なタグ付けコーパス約 1 万文の学習コーパスを整備

小規模コーパス

言い回しコーパスでの精度

※ 語彙・品詞体系、評価コーパスの見直しているため

　旧エンジンの精度も前のスライドと異なります

旧エンジンの精度を 1 万文で超えた！（旧コーパスでは 10 万文必要）

ただ、まだ旧エンジンからの改悪を抑える対策が未完・・・

300 万文コーパス旧エンジンの解析結果を利用人手修正もしている（旧エンジンより高精度）このコーパスを旧エンジンの解析結果と仮定

（エセ）能動学習を実施 300 万文コーパスから間違い事例を追加し再学習本当の能動学習はタグなしコーパスから行う本当の能動学習では精度はあがるが改悪多数・・・

旧エンジンの長所を継承（概要のみ）

能動学習の精度

さらに精度向上を実現！改悪もかなり抑えられた

使ったコーパスは約 3 万 7千文

残された問題は、洗練手法だけ！

旧エンジンでの洗練手法人手でコストを調整コーパスを直す（ルールで潰す）コスト人手調整は職人技が必要（ CRF では不可

能）

部分アノテーション学習による洗練文中の教えたい部分のみアノテーション洗練・分野適応（評価コーパスの）精度をさげずに適応可　

洗練手法（概要のみ）

ベース学習

Web テキストコーパス

クラスタリング

誤解析しそうなテキスト群

タグ付きコーパス（約 1 万文）半自動タグ付け

コーパス（約 300 万

文）

能動学習用コーパス

部分アノテーション学習

能動学習

JMAT ベースモデル

商品版JMAT

人手知識

商品版 JMAT はさらに高精度です！

JMAT は CRF を使っているベース学習、能動学習、部分アノテーション学習

教師あり学習のキモはコーパスの質質の悪い大規模コーパスより小規模でも高品質コーパスただし、超大規模になると性質かかわるかも

数値評価のみでは使える商品にならない

まとめ

最後に（宣伝）

ピタジョブ、始めました！https://lets.pitajob.jp/

ジャストシステムの形態素解析技術その2 機械学習編

Engineering

データサイエンス講座第2回機械学習その1 回機械 …...データサイエンス講座第2回機械学習その1回機械学習その1 クラスタリング分析

機械少女と幻想の塔

土木機械建設機械の EMC | ISO 13766-1, -2土木機械/建設機械のEMC — ISO 13766-1,-2 の概要本稿ではこのISO 13766-1:2018[1] の概要を述べ、またISO

大学院 · 2精密機械システムの設計原理（運動創成と駆動） 3精密機械システムの設計原理（アッベの原理） 4精密機械システムの設計原理（ロストモーション）

荷役機械の最近の動向 ...u.D.C.占21.87 荷役機械の最近の動向 Recent Trends ofLoading and Unloading Machinery ‾平突保平* YasuheiIiiraguri 要旨

データの本質を読み解くための機械学習...機械学習アルゴリズムのハイパーパラメータ推定の自動化 1. “fit” 関数のOptimizeHyperparametersオプションを追加

機械の電気装置の安全（IEC 60204-1 - JMF 60204-1_2016.pdf20161110 機械安全国際規格の紹介機械の電気装置の安全（IEC 60204-1） 9 4 General requirements

統計的機械翻訳入門その2 〜フレーズベース機械翻訳〜 #TokyoNLP

データサイエンス講座第3回機械学習その2 回機械学習その2€¦ · ランダムフォレストのアルゴリズム 1.トレーニングデータからブートスト

データサイエンス講座第4回回機械学習その機械学習その3...データサイエンス講座第4回回機械学習その機械学習その3 重回帰分析（AIC)

機械の危険性に合わせた最適な安全システムをF1 F2 F1 F2 S1 S2 P1 P2 P1 P2 L H リスク低減の寄与度機械のPLr（*1） PLr≦PL 包装機械食品機械

機械安全のための教育カリキュラム用教材 - JMTBA...機械安全のための教育カリキュラム用教材－設計技術者編－「第5章機械の安全設計」

－架線機械の復活と車両機械との共生－...2010/06/11 · 林業革命－架線機械の復活と車両機械との共生－仁多見俊夫東京大学農学生命科学研究科

第K04回機械の動きと条件・シーケンス機械の動きと工学部機械知能工学科機械知能工学科熊谷正朗 kumagai@mail.tohoku-gakuin.ac.jp EP-04/Rev16-1.0

ビッグデータのための機械学習...• Apache Spark での機械学習 –ML パイプライン –DataFrame の活用 2016/10/28 ビッグデータアナリティクス

一般機械、電気機械、輸送機械、精密機械、8 一般機械、電気機械、輸送機械、精密機械、その他の製造工業列コード行コード部門名称

データサイエンス講座第4回回機械学習その機械学 …データサイエンス講座第4回回機械学習その機械学習その3 重回帰分析（AIC) 階層ベイズとMCMC

昔の機械翻訳統計的機械翻訳翻訳の評価

シリーズML-01 機械学習の概要

ジャストシステムの形態素解析技術 その2 機械学習編

ジャストシステムの形態素解析技術その2 機械学習編