Social IME: サーバサイド日本語入力とログ活用サービス

Preview:

Citation preview

未踏ソフトウェア提案説明

奥野 陽慶應義塾大学修士 1 年

2006 年 10月

私は気付いた

MS-IME では

「みとうせい」が

「未統制」

になる

「未踏性」は変換できない

私は「未踏性」を

単語登録した

ふとひらめいた

単語の辞書を共有すればいいと

ユーザ間で単語を共有するシステム

いける、と思った

しかし問題があった

登録された単語の信頼性は?

登録された単語の分野は?

そこで

サーバサイドで

日本語入力

入力の履歴を使って

単語の信頼性を自動判別

単語やユーザをクラスタリング

しかし開発に時間がかかる

未踏の開発期間は短い

かな漢字変換エンジンはオープンソースを使うとし

期間内で既存の IME と差別化をしなければ

そこで考えた独自サービス

ライフログ

似た人検索

言語統計情報

というわけで

未踏ソフトウェア提案説明

奥野 陽慶應義塾大学修士 1 年

プレゼン目次

1. オープニング

2. 背景・目的3. 現状の不満

点4. 提案内容5. 普及戦略6. 質疑応答

Web 2.0 時代のソフトウェアとは?サーバサイドマルチユーザパーソナライズ

インターネット

シングルユー

マルチユー

PC サーバ

背景

Web サービスの例GoogleWikipedia

クライアントアプリの例Google EarthiTunes

既存アプリを Web アプリ化した例Gmail翻訳サイト

背景

Web サービスの例GoogleWikipedia

クライアントアプリの例Google EarthiTunes

既存アプリを Web アプリ化した例Gmail翻訳サイト

背景

Web 2.0 のパラダイムは、Web ブラウザ上だけとは

限らないのでは?

日本語入力の場合

集合知

死蔵

入力のログ単語の辞書

よくて私蔵

蓄積

日本語入力

単語登録の手間

全ユーザで共有

PC

PC

従来: 同じ単語を登録

単語 A

単語 B

単語 A

単語 C

無駄

単語登録

日本語入力ならデータが分散しないデータ収集が容易

アプリケーションレベル

ワープロ

メール

掲示板

日本語入力

デバイスレベルデータを

集積

データが分散(扱いづらい)

データ収集方法として

プレゼン目次

1. オープニング

2. 背景・目的3. 現状の不満

点4. 提案内容5. 普及戦略6. 質疑応答

誤変換例

未統制デー玉イニングプログラマぶるトレーサびり

ティそう初口説く点ぷ来橋

未踏ソフトウェア想像事業

集合地情報工学か可逆と負荷逆誤差逆電波法書くフレーム

悲惨

既存の日本語入力だと…

既存の辞書専門用語の辞書( ATOK 用)が販売されている

が…分野 語数 値段医療用語 20万語 ¥ 12,000

機械・工学 17万語 ¥ 8,925

電気・電子・情報

17万語 ¥ 8,925

生命科学 12万語 ¥ 5,250

建築・土木 12万語 ¥ 8,500

化学・農学 11万語 ¥ 8,925

法律用語 5万語 ¥ 5,250

放送用語 3万語 ¥ 3,800

面倒

かんな

Canna の登録語彙の共有イントラ向け ATOK の辞書共有

ローカルネットワーク内での使用を想定提案は”インターネット全体”での辞書共有社内ブログとブログくらい違う

別物

プレゼン目次

1. オープニング

2. 背景・目的3. 現状の不満

点4. 提案内容5. 普及戦略6. 質疑応答

かな入力

漢字変換

クライアント サーバ

DBWeb サイト

Social IME の構成

3つのモジュールから構成DB を介してデータをやり取り

Windows

常駐ソフトLinux

Anthy

ライフログ似た人検索各種統計

クライアントサイド

見た目は MS-IME 切り替えて併用可能

単語登録のインターフェース情報を暗号化してサーバサイドと通

サーバサイド

文節区切り

重要度でソート

変換候補

出力入力

ひらがな

単語検索

コーパス共有辞書コーパス

かな漢字変換には深入りしない自分 >>> 似た人 >>> 全体平均

Anthy を改良

データ形式データ形式は 2種類+コンテキスト

登録単語

書き方読み方品詞

入力ログ

変換後変換前変換候補

コンテキスト

コンテキスト

+ +

ユーザ名位置情報時間情報アプリ名

URLファイルパス送信先

拡張性のためのコンテキストを保持

コンテキスト

ライフログ

人間は溜めたがる

似た人検索

人間は繋がりたがる

言語統計情報

人間は知りたがる

まとめ

機能 ニーズライフログ 人間は溜めたがる似た人検索 人間は繋がりたがる言語統計 人間は知りたがる

実用性 × 娯楽性(便利さ)(面白さ)

プレゼン目次

1. オープニング

2. 背景・目的3. 現状の不満

点4. 提案内容5. 普及戦略6. 質疑応答

普及戦略

プロジェクト期間中、普及のためにやること

私の Web サイト(月 5万 PV) で宣伝mixi やはてなの認証 API に対応単語毎の自動生成ページによる SEOGoogle AdWords に広告を掲載終了後もさらなる開発と普及を図ります。

ユーザ層

初期の想定ユーザ層は、文章を日常的に書く層のうち、Web サービスのヘビーユーザ

mixi ユーザはてなユーザ

専門用語や流行語・俗語のヘビーユーザIT 用語医療用語2ちゃんねる用語東方用語

時間をかけて一般層への普及を図ります。

開発予定表

  クライアントソフト かな漢字変換サーバ 連動 Web サイト 全体

4 月

インターフェース開発

 

     

5 月      

6 月

Anthy をカスタマイズ

   

7 月    

8 月   α 版公開

9 月  

  かな漢字変換を改良

Web サイトを開発

10月    

11月    

12月 テスト・デバッグ テスト・デバッグ テスト・デバッグ β 版公開

自己紹介奥野 陽(おくの よう)慶應義塾大学 修士 1 年ハンドルネームは「のくの」 or “nokuno”

とびまりさプログラム・音楽・デザイン等を 1 人

で制作弾幕シューティングゲーム1個 1000円~ 1500円で販売

卒論システム

感性を反映したフォント自動作成システム

既存研究に Web 2.0 的な考え方を導入

可視化システム関係ネットワークの可視化

類似度が閾値以上のユーザを線で結ぶ自分が誰と似ているか分かる

連絡先

日記サイトhttp://d.hatena.ne.jp/nokuno/

研究サイトhttp://www.soft.ics.keio.ac.jp/~okuno/

ゲーム・音楽サイトhttp://www.nokuno.jp/

メールアドレスnokunoアットnokuno.jp

結論

ご清聴ありがとうございました。引き続き質疑応答をお願いしま

す。

スライドショーの最後です。クリックするとスライドショーを終了するぞ JOJOォォォオオオッッ!!!

以下、質問用スライド

プライバシー

Q. プライバシーが問題では?

A. たしかに問題ですが、例えば GMail の普及を

考えれば楽観的に考えて良いと思います。

技術的な課題というよりも、ユーザの信頼を得

ることが重要な課題です。

プライバシー2

Q. それをユーザにどう説明する?

A.個人情報を扱う方法は、 Google 検索と同じく自動的なアルゴリズムによるものです。システム提供者が内容をチェックするということはありません。

(見えないものは存在しないのと同じ)

プライバシー3

Q.SNS におけるプライバシーは質的に違うのでは?

A. 不特定多数が嗜好を知ることができるとすると、個人情報が悪用される恐れがあります。

これは嗜好を公開する範囲を同じ嗜好をもった相手に

限定することで回避できます。同じ嗜好を持った仲間同士が隠しあう必要はないのではないか、と思います。

個人情報保護法個人情報取扱事業者の主な義務

利用目的は事前にハッキリしておく(15条)利用目的を超えた利用は NG (16条)本人の同意なしに第三者に提供は NG ( 23条)

個人情報の定義特定の個人を識別できる情報他の情報と容易に照合することができることに

より,特定の個人を識別することができる情報つまり・・・

個人を特定できない範囲で公開は OK入力履歴の生データの公開は NG辞書は個人情報に当たらないとするので OK

不満

Q. 既存の IME に不満があるか?

A. 既存の IME はスタンドアロンです。アルゴリズムはかなりのものですが、単語の辞書は充実しているとはいえません。

また、 IME の入力ログを用いたライフログ、似た人検索はまったく新しいサービスです。

Q. 誰が使うのか?

A.最初は主に次のようなユーザを想定しています。Web サービスのヘビーユーザ

mixi ユーザはてなユーザ

専門用語のヘビーユーザIT関連医療用語法律用語

時間をかけて一般層への浸透を図ります。

ターゲットユーザ

パフォーマンス

Q.通信がボトルネックにならないか?

A. テキストデータなので、大して速度は必要ないはずです。

Ajax IME の速度は超えたいです。

サーバの負荷

Q. サーバの運営は大丈夫? 落ちない?

A.回線負荷は大丈夫だと思います。問題はサーバの計算負荷です。

必要に応じて負荷分散しますが、あまりに重いようならクライアントの CPU

を使わせてもらうことになるでしょう。

MS-IME と併用

Q.MS-IME と併用は?

A. 次のようにして併用できるようにします。単語の辞書をインポートできる切り替えて使用できる

オフライン

Q. マシンがオフラインのときは?

A.当面は MS-IME と併用してもらいます。

オフライン用のモードも考えていますが、Anthy の Windows での実装がなく、データの同期も面倒なので後回し。

プロジェクト期間終了後に実装します。

単語登録だけ

Q. 単語登録だけではだめか?

A. 「辞書のオンラインアップデート」だけなら、

ATOK等が既にやっています。

登録された単語の信頼性が分からないという問題もあります。

プラグイン

Q.MS-IME のプラグインとして実装は?

A. 次の理由から、できません。MS-IME がプラグインを用意していない個人辞書では優先度が最大になってしま

う登録された単語の信頼性が不明ATOK は調べていませんが、有料なので十分なデータが集まらないと思われます。

既存システムMS-IME,ATOK

スタンドアロンの日本語入力。Canna,Wnn

LAN 内での辞書の共有が可能。インターネット全体では不可能。

Ajax IMEブラウザ上でのみ動作。パーソナライズや単語登録がない。

SKK入力方式が特殊で使いづらい

結論Social IME のようなシステムは存在しない。

MS-IME

Q.MS-IME とはどう違うか?

A.MS-IME はスタンドアロンのシステムです。

アルゴリズムはかなりのものですが、単語の辞書は十分とはいえません。

Canna

Q.Canna とはどう違うか?

A. Canna は LAN 内でのみ使用可能なサーバです。イントラ向け ATOK などのグループウェアなどもあります。

Social IME はインターネットで公開するため、

ユーザが多く、ロングテール型をしており、集合知を集めやすいことが重要です。

Ajax IME

Q.Ajax IME とはどう違うか?

A.Ajax を使った IME では、ブラウザでしか使えません。ブラウザのみでは IME として不便であり、十分とはいえません。また Ajax IME にはパーソナライズや単語登録がありません。

SKK

Q.SKK とはどう違うか?

A.SKK は CGI で単語を登録できるが、辞書は DL して使用するので不便です。変換サーバの公開はありません。

何よりも、入力方式が特殊で使いづらい。

異分野Wikipedia

そもそも百科辞典と辞書は異なります。読み仮名や品詞の取得が困難です。

テキストマイニングブログやニュースサイトの解析はあります。テキストマイニングとの連携は考えています。

mixi“ 似た人検索”における連携は考えています。非公開日記のマイニングができればよいのですが。

結論Web アプリなどの分野が異なるところで、似たようなことをやっている例は多い。しかし、 IME を目的とした例は無い。

Wikipedia

Q.Wikipedia と提案の辞書共有機能はどう違うか?

A.コンセプトは非常に似ています。ただし Wikipedia は百科事典、提案の辞書共有は日本語入力の辞書、この両者は分野が異なります。

実際に Wikipedia から正確な単語の読み方や品詞を取得することは困難です。

ブログ

Q. ブログと提案のライフログ機能はどう違うか?

A. ライフログ機能は、普段からブログを書いている人には重複するかもしれません。しかしそうでない人や、ブログ以外の場所で入力した文章も参照できる点が異なります。

テキストマイニング

Web 上のテキストマイニングと連携することを

考えています。

具体的には、その日のニュースに関連する単語を変換可能

登録した人のブログをマイニングして利用Wikipedia をマイニングして利用はてなのキーワードを辞書に利用

ニッチ市場

“Social IME” という直球のアイデアなんで今まで無かったのか不思議Google が日本企業だったならとっくに作っていたであろうソフト

ターゲットは日本という国の巨大なニッチ市場

及び中国語圏のもっと巨大なニッチ市場

データ重要

データを集め、自分で保有することが重要と

“Data is Next Intel Inside.”ソフトウェアよりもデータが重要ある意味、未踏ソフトウェアにあるまじき

考え

Anthy

オープンソースのかな漢字変換エンジン京都大学を中心に 2000 年より開発2001 年度未踏ソフトウェア創造事業に採択Fedore Core, Vine Linux に標準採用Windows の実装はない

SEO

単語ごとのページを自動生成「未踏性」が変換できない!

→Social IME なら変換できます「プログラマブル」が変換できない!

→Social IME なら変換できます「集合知」が変換できない!

→Social IME なら変換できます「データマイニング」が変換できない!

→Social IME なら変換できます

類似語同士をリンクして PageRank 上昇

プロジェクト期間20082007 2009

ネットワーク外部性指数関数的にユーザ数が増加

ユー

ザ数

α

版公開β

版公開

正式公開

デファクト・スタンダー

目標

開発予定オフラインモード開発クライアント CPU を用いた負荷分

散予測変換を実装「もしかして~」を実装

その他API 提供や連動広告によるビジネス化メーカー PCへのプリインストール

プロジェクト終了後の予定

Recommended