1
奈良先端科学技術大学院大学情報科学研究科 手法 背景・目的 ChaIME:大規模コーパスを用いた統計的かな漢字変換 小町守(NAIST)・森信介(京大)・徳永拓之(PFI) 変換結果(デモ)・他の手法との比較 課題と今後の予定 単語入力履歴(変換ログ)を用いた変換 トピックモデルを用いた同音異義語の変換・単語のクラスタリングを用いた精度向上とモデル圧縮 予測入力との統合 かな漢字モデルの学習 出現する単語の読みはなにか推定するモデル 解析済みコーパスから頻度を計算して最尤推定 毎日新聞13年分を形態素解析器MeCabで解析 言語モデル(n-gram)の学習 Google 日本語Nグラムデータ(200億文)から単語 の1,2グラムを計算(異なり1グラム数:250万;異な り2グラム数:8,000万) 複雑な未知語処理・品詞情報を用いないかな漢字変換 大規模データから変換確率を推定・一般の開発者向け かな漢字モデル 言語モデル × P ( x | y ) = P ( y | x ) P ( x ) P ( y ) によるランキング P ( y | x ) P ( x ) M w, n ( w ) = P ( w i | w in + 1 i1 ) i= 1 h + 1 我が輩 である 文頭 文末 M kk ( y | w ) = P ( y i i= 1 h | w i ) P ( y i | w i ) = f ( y i , w i ) f ( w i ) 克明 こくめい かつあき 小野克明さん(43克明なやりとりが判明 大規模コーパスによる統計的自然言語処理の応用 人手をかけない(Google 日本語 N グラム・Wikipediaなど) ヒューリスティックによるかな漢字変換 規則ベース変換(Canna) N文節最長一致(Wnn, VJE, 旧ATOK) 最小コスト法(WXG, 旧MS-IME) 辞書のメンテナンス・アルゴリズム開発のハードル 計算機の高速化・メモリや HDD の大容量化 大規模コーパスが利用可能に 機械学習・統計的手法の発展 コーパスからの変換規則(モデル)の学習 →極力人手に頼らないかな漢字変換システム 統計的かな漢字変換(森ら, 1998): の降順に変換可能文字列を提示する (x: 文, y: 入力) P ( x | y ) ChaIME ATOK 2007 Anthy 9100c AjaxIME 請求書の支払日 請求書の市は来 日時 請求書の支払い 日時 請求書の支払い に知事 近く市場調査を行 う。 知覚し冗長さを行 う。 近く市場調査を行 う。 近く市場調査を行 う。 その後サイト内で その五歳都内で その後サイト内で その後再都内で 去年に比べ高い 水準だ。 去年に比べた海 水順だ。 去年に比べたか い水準だ。 去年に比べ高い 水準だ。 昼イチまでに書類 作っといて。 昼一までに書類津 くっといて。 昼一までに書類 作っといて。 肥留市までに書類 作っといて。 そんな話信じっこ ないよね。 そんな話心十個内 よね。 そんなはな視診 時っこないよね。 そんな話神事っ子 ないよね。 初めっからもって けばいいのに。 恥メッカら持って毛 羽いいのに。 恥メッカ羅持って ケバ飯野に。 始っから持ってけ ば良いのに。 熱々の肉まんに ぱくついた。 熱々の肉まん二 泊着いた。 あつあつの肉まん 2泊付いた。 熱熱の肉まんに ぱくついた。 ※例文は http://www.justsystems.com/jp/products/atok/ より取得 変換サンプル 他の統計的手法 Anthy メンテナンスに言語学 的知識が必要 Sumibi 単語分かち書きが必 要・辞書にない単語は変 換できない AjaxIME 言語モデル・かな漢字 モデルが貧弱 かな漢字モデル 言語モデル 統計的かな漢字変換はヒューリスティック 最小コスト法の自然な拡張になっている ワニ 埴輪 規則ベース なにをやっているのかはっきり分かる 柔軟な前処理・後処理 問題が簡単なときは規則ベースでもうまくいく アドホックなヒューリスティック(要言語学的直観) 「必殺パラメータ」 統計的手法 数学的モデルに基づいた理論的根拠 変換規則や辞書に当たる知識を自動で学習 なにやっているのかよく分からない コーパスに激しく依存 変化の微調整が難しい

ChaIME:大規模コーパスを用いた統計的かな漢字変換cl.sd.tmu.ac.jp/~komachi/posters/yans2008-ime.pdf · chaime:大規模コーパスを用いた統計的かな漢字変換

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ChaIME:大規模コーパスを用いた統計的かな漢字変換cl.sd.tmu.ac.jp/~komachi/posters/yans2008-ime.pdf · chaime:大規模コーパスを用いた統計的かな漢字変換

奈良先端科学技術大学院大学情報科学研究科

手法

背景・目的

ChaIME:大規模コーパスを用いた統計的かな漢字変換 �小町守(NAIST)・森信介(京大)・徳永拓之(PFI)

変換結果(デモ)・他の手法との比較

課題と今後の予定 p 単語入力履歴(変換ログ)を用いた変換

p トピックモデルを用いた同音異義語の変換・単語のクラスタリングを用いた精度向上とモデル圧縮

p 予測入力との統合

かな漢字モデルの学習

出現する単語の読みはなにか推定するモデル

解析済みコーパスから頻度を計算して最尤推定

毎日新聞13年分を形態素解析器MeCabで解析

言語モデル(n-gram)の学習

Google 日本語Nグラムデータ(200億文)から単語の1,2グラムを計算(異なり1グラム数:250万;異なり2グラム数:8,000万)

複雑な未知語処理・品詞情報を用いないかな漢字変換

大規模データから変換確率を推定・一般の開発者向け

かな漢字モデル

言語モデル ×

P(x | y) =P(y | x)P(x)

P(y)によるランキング

P(y | x)

P(x)

Mw,n (w) = P(wi |wi−n+1i−1 )

i=1

h+1

∏我が輩 は 猫 である

文頭 文末

Mkk (y |w) = P(yii=1

h

∏ |wi )

P(yi |wi) =f (yi,wi)f (wi)

克明 こくめい かつあき

小野克明さん(43) 克明なやりとりが判明

大規模コーパスによる統計的自然言語処理の応用 人手をかけない(Google 日本語 N グラム・Wikipediaなど)

ヒューリスティックによるかな漢字変換 p 規則ベース変換(Canna) p N文節最長一致(Wnn, VJE, 旧ATOK) p 最小コスト法(WXG, 旧MS-IME) →辞書のメンテナンス・アルゴリズム開発のハードル

計算機の高速化・メモリや HDD の大容量化 →大規模コーパスが利用可能に 機械学習・統計的手法の発展 →コーパスからの変換規則(モデル)の学習 →極力人手に頼らないかな漢字変換システム

統計的かな漢字変換(森ら, 1998):      の降順に変換可能文字列を提示する (x: 文, y: 入力)

P(x | y)

ChaIME ATOK 2007 Anthy 9100c AjaxIME

請求書の支払日時

請求書の市は来日時

請求書の支払い日時

請求書の支払いに知事

近く市場調査を行う。

知覚し冗長さを行う。

近く市場調査を行う。

近く市場調査を行う。

その後サイト内で その五歳都内で その後サイト内で その後再都内で

去年に比べ高い水準だ。

去年に比べた海水順だ。

去年に比べたかい水準だ。

去年に比べ高い水準だ。

昼イチまでに書類作っといて。

昼一までに書類津くっといて。

昼一までに書類作っといて。

肥留市までに書類作っといて。

そんな話信じっこないよね。

そんな話心十個内よね。

そんなはな視診時っこないよね。

そんな話神事っ子ないよね。

初めっからもってけばいいのに。

恥メッカら持って毛羽いいのに。

恥メッカ羅持ってケバ飯野に。

始っから持ってけば良いのに。

熱々の肉まんにぱくついた。

熱々の肉まん二泊着いた。

あつあつの肉まん2泊付いた。

熱熱の肉まんにぱくついた。

※例文は http://www.justsystems.com/jp/products/atok/ より取得

変換サンプル 他の統計的手法 Anthy p メンテナンスに言語学的知識が必要

Sumibi p 単語分かち書きが必要・辞書にない単語は変換できない

AjaxIME p 言語モデル・かな漢字モデルが貧弱

かな漢字モデル 言語モデル

統計的かな漢字変換はヒューリスティック 最小コスト法の自然な拡張になっている

ワニ

埴輪

規則ベース p なにをやっているのかはっきり分かる p 柔軟な前処理・後処理 p 問題が簡単なときは規則ベースでもうまくいく p アドホックなヒューリスティック(要言語学的直観) p 「必殺パラメータ」

統計的手法 p 数学的モデルに基づいた理論的根拠 p 変換規則や辞書に当たる知識を自動で学習 p なにやっているのかよく分からない p コーパスに激しく依存 p 変化の微調整が難しい