89
未未未未未未未未未未未未 未未 未 未未未未未未未未 1 未

Social IME: サーバサイド日本語入力とログ活用サービス

Embed Size (px)

Citation preview

Page 1: Social IME: サーバサイド日本語入力とログ活用サービス

未踏ソフトウェア提案説明

奥野 陽慶應義塾大学修士 1 年

Page 2: Social IME: サーバサイド日本語入力とログ活用サービス

2006 年 10月

Page 3: Social IME: サーバサイド日本語入力とログ活用サービス

私は気付いた

Page 4: Social IME: サーバサイド日本語入力とログ活用サービス

MS-IME では

Page 5: Social IME: サーバサイド日本語入力とログ活用サービス

「みとうせい」が

Page 6: Social IME: サーバサイド日本語入力とログ活用サービス

「未統制」

になる

Page 7: Social IME: サーバサイド日本語入力とログ活用サービス

「未踏性」は変換できない

Page 8: Social IME: サーバサイド日本語入力とログ活用サービス

私は「未踏性」を

単語登録した

Page 9: Social IME: サーバサイド日本語入力とログ活用サービス

ふとひらめいた

Page 10: Social IME: サーバサイド日本語入力とログ活用サービス

単語の辞書を共有すればいいと

Page 11: Social IME: サーバサイド日本語入力とログ活用サービス

ユーザ間で単語を共有するシステム

Page 12: Social IME: サーバサイド日本語入力とログ活用サービス

いける、と思った

Page 13: Social IME: サーバサイド日本語入力とログ活用サービス

しかし問題があった

Page 14: Social IME: サーバサイド日本語入力とログ活用サービス

登録された単語の信頼性は?

Page 15: Social IME: サーバサイド日本語入力とログ活用サービス

登録された単語の分野は?

Page 16: Social IME: サーバサイド日本語入力とログ活用サービス

そこで

Page 17: Social IME: サーバサイド日本語入力とログ活用サービス

サーバサイドで

日本語入力

Page 18: Social IME: サーバサイド日本語入力とログ活用サービス

入力の履歴を使って

Page 19: Social IME: サーバサイド日本語入力とログ活用サービス

単語の信頼性を自動判別

Page 20: Social IME: サーバサイド日本語入力とログ活用サービス

単語やユーザをクラスタリング

Page 21: Social IME: サーバサイド日本語入力とログ活用サービス

しかし開発に時間がかかる

Page 22: Social IME: サーバサイド日本語入力とログ活用サービス

未踏の開発期間は短い

Page 23: Social IME: サーバサイド日本語入力とログ活用サービス

かな漢字変換エンジンはオープンソースを使うとし

Page 24: Social IME: サーバサイド日本語入力とログ活用サービス

期間内で既存の IME と差別化をしなければ

Page 25: Social IME: サーバサイド日本語入力とログ活用サービス

そこで考えた独自サービス

Page 26: Social IME: サーバサイド日本語入力とログ活用サービス

ライフログ

Page 27: Social IME: サーバサイド日本語入力とログ活用サービス

似た人検索

Page 28: Social IME: サーバサイド日本語入力とログ活用サービス

言語統計情報

Page 29: Social IME: サーバサイド日本語入力とログ活用サービス

というわけで

Page 30: Social IME: サーバサイド日本語入力とログ活用サービス

未踏ソフトウェア提案説明

奥野 陽慶應義塾大学修士 1 年

Page 31: Social IME: サーバサイド日本語入力とログ活用サービス

プレゼン目次

1. オープニング

2. 背景・目的3. 現状の不満

点4. 提案内容5. 普及戦略6. 質疑応答

Page 32: Social IME: サーバサイド日本語入力とログ活用サービス

Web 2.0 時代のソフトウェアとは?サーバサイドマルチユーザパーソナライズ

インターネット

シングルユー

マルチユー

PC サーバ

背景

Page 33: Social IME: サーバサイド日本語入力とログ活用サービス

Web サービスの例GoogleWikipedia

クライアントアプリの例Google EarthiTunes

既存アプリを Web アプリ化した例Gmail翻訳サイト

背景

Page 34: Social IME: サーバサイド日本語入力とログ活用サービス

Web サービスの例GoogleWikipedia

クライアントアプリの例Google EarthiTunes

既存アプリを Web アプリ化した例Gmail翻訳サイト

背景

Web 2.0 のパラダイムは、Web ブラウザ上だけとは

限らないのでは?

Page 35: Social IME: サーバサイド日本語入力とログ活用サービス

日本語入力の場合

集合知

死蔵

入力のログ単語の辞書

よくて私蔵

蓄積

日本語入力

Page 36: Social IME: サーバサイド日本語入力とログ活用サービス

単語登録の手間

全ユーザで共有

PC

PC

従来: 同じ単語を登録

単語 A

単語 B

単語 A

単語 C

無駄

単語登録

Page 37: Social IME: サーバサイド日本語入力とログ活用サービス

日本語入力ならデータが分散しないデータ収集が容易

アプリケーションレベル

ワープロ

メール

掲示板

日本語入力

デバイスレベルデータを

集積

データが分散(扱いづらい)

データ収集方法として

Page 38: Social IME: サーバサイド日本語入力とログ活用サービス

プレゼン目次

1. オープニング

2. 背景・目的3. 現状の不満

点4. 提案内容5. 普及戦略6. 質疑応答

Page 39: Social IME: サーバサイド日本語入力とログ活用サービス

誤変換例

未統制デー玉イニングプログラマぶるトレーサびり

ティそう初口説く点ぷ来橋

未踏ソフトウェア想像事業

集合地情報工学か可逆と負荷逆誤差逆電波法書くフレーム

悲惨

既存の日本語入力だと…

Page 40: Social IME: サーバサイド日本語入力とログ活用サービス

既存の辞書専門用語の辞書( ATOK 用)が販売されている

が…分野 語数 値段医療用語 20万語 ¥ 12,000

機械・工学 17万語 ¥ 8,925

電気・電子・情報

17万語 ¥ 8,925

生命科学 12万語 ¥ 5,250

建築・土木 12万語 ¥ 8,500

化学・農学 11万語 ¥ 8,925

法律用語 5万語 ¥ 5,250

放送用語 3万語 ¥ 3,800

面倒

Page 41: Social IME: サーバサイド日本語入力とログ活用サービス

かんな

Canna の登録語彙の共有イントラ向け ATOK の辞書共有

ローカルネットワーク内での使用を想定提案は”インターネット全体”での辞書共有社内ブログとブログくらい違う

別物

Page 42: Social IME: サーバサイド日本語入力とログ活用サービス

プレゼン目次

1. オープニング

2. 背景・目的3. 現状の不満

点4. 提案内容5. 普及戦略6. 質疑応答

Page 43: Social IME: サーバサイド日本語入力とログ活用サービス

かな入力

漢字変換

クライアント サーバ

DBWeb サイト

Social IME の構成

3つのモジュールから構成DB を介してデータをやり取り

Windows

常駐ソフトLinux

Anthy

ライフログ似た人検索各種統計

Page 44: Social IME: サーバサイド日本語入力とログ活用サービス

クライアントサイド

見た目は MS-IME 切り替えて併用可能

単語登録のインターフェース情報を暗号化してサーバサイドと通

Page 45: Social IME: サーバサイド日本語入力とログ活用サービス

サーバサイド

文節区切り

重要度でソート

変換候補

出力入力

ひらがな

単語検索

コーパス共有辞書コーパス

かな漢字変換には深入りしない自分 >>> 似た人 >>> 全体平均

Anthy を改良

Page 46: Social IME: サーバサイド日本語入力とログ活用サービス

データ形式データ形式は 2種類+コンテキスト

登録単語

書き方読み方品詞

入力ログ

変換後変換前変換候補

コンテキスト

コンテキスト

+ +

ユーザ名位置情報時間情報アプリ名

URLファイルパス送信先

拡張性のためのコンテキストを保持

コンテキスト

Page 47: Social IME: サーバサイド日本語入力とログ活用サービス

ライフログ

人間は溜めたがる

Page 48: Social IME: サーバサイド日本語入力とログ活用サービス

似た人検索

人間は繋がりたがる

Page 49: Social IME: サーバサイド日本語入力とログ活用サービス

言語統計情報

人間は知りたがる

Page 50: Social IME: サーバサイド日本語入力とログ活用サービス

まとめ

機能 ニーズライフログ 人間は溜めたがる似た人検索 人間は繋がりたがる言語統計 人間は知りたがる

実用性 × 娯楽性(便利さ)(面白さ)

Page 51: Social IME: サーバサイド日本語入力とログ活用サービス

プレゼン目次

1. オープニング

2. 背景・目的3. 現状の不満

点4. 提案内容5. 普及戦略6. 質疑応答

Page 52: Social IME: サーバサイド日本語入力とログ活用サービス

普及戦略

プロジェクト期間中、普及のためにやること

私の Web サイト(月 5万 PV) で宣伝mixi やはてなの認証 API に対応単語毎の自動生成ページによる SEOGoogle AdWords に広告を掲載終了後もさらなる開発と普及を図ります。

Page 53: Social IME: サーバサイド日本語入力とログ活用サービス

ユーザ層

初期の想定ユーザ層は、文章を日常的に書く層のうち、Web サービスのヘビーユーザ

mixi ユーザはてなユーザ

専門用語や流行語・俗語のヘビーユーザIT 用語医療用語2ちゃんねる用語東方用語

時間をかけて一般層への普及を図ります。

Page 54: Social IME: サーバサイド日本語入力とログ活用サービス

開発予定表

  クライアントソフト かな漢字変換サーバ 連動 Web サイト 全体

4 月

インターフェース開発

 

     

5 月      

6 月

Anthy をカスタマイズ

   

7 月    

8 月   α 版公開

9 月  

  かな漢字変換を改良

Web サイトを開発

10月    

11月    

12月 テスト・デバッグ テスト・デバッグ テスト・デバッグ β 版公開

Page 55: Social IME: サーバサイド日本語入力とログ活用サービス

自己紹介奥野 陽(おくの よう)慶應義塾大学 修士 1 年ハンドルネームは「のくの」 or “nokuno”

Page 56: Social IME: サーバサイド日本語入力とログ活用サービス

とびまりさプログラム・音楽・デザイン等を 1 人

で制作弾幕シューティングゲーム1個 1000円~ 1500円で販売

Page 57: Social IME: サーバサイド日本語入力とログ活用サービス

卒論システム

感性を反映したフォント自動作成システム

既存研究に Web 2.0 的な考え方を導入

Page 58: Social IME: サーバサイド日本語入力とログ活用サービス

可視化システム関係ネットワークの可視化

類似度が閾値以上のユーザを線で結ぶ自分が誰と似ているか分かる

Page 59: Social IME: サーバサイド日本語入力とログ活用サービス

連絡先

日記サイトhttp://d.hatena.ne.jp/nokuno/

研究サイトhttp://www.soft.ics.keio.ac.jp/~okuno/

ゲーム・音楽サイトhttp://www.nokuno.jp/

メールアドレスnokunoアットnokuno.jp

Page 60: Social IME: サーバサイド日本語入力とログ活用サービス

結論

ご清聴ありがとうございました。引き続き質疑応答をお願いしま

す。

Page 61: Social IME: サーバサイド日本語入力とログ活用サービス

スライドショーの最後です。クリックするとスライドショーを終了するぞ JOJOォォォオオオッッ!!!

Page 62: Social IME: サーバサイド日本語入力とログ活用サービス

以下、質問用スライド

Page 63: Social IME: サーバサイド日本語入力とログ活用サービス

プライバシー

Q. プライバシーが問題では?

A. たしかに問題ですが、例えば GMail の普及を

考えれば楽観的に考えて良いと思います。

技術的な課題というよりも、ユーザの信頼を得

ることが重要な課題です。

Page 64: Social IME: サーバサイド日本語入力とログ活用サービス

プライバシー2

Q. それをユーザにどう説明する?

A.個人情報を扱う方法は、 Google 検索と同じく自動的なアルゴリズムによるものです。システム提供者が内容をチェックするということはありません。

(見えないものは存在しないのと同じ)

Page 65: Social IME: サーバサイド日本語入力とログ活用サービス

プライバシー3

Q.SNS におけるプライバシーは質的に違うのでは?

A. 不特定多数が嗜好を知ることができるとすると、個人情報が悪用される恐れがあります。

これは嗜好を公開する範囲を同じ嗜好をもった相手に

限定することで回避できます。同じ嗜好を持った仲間同士が隠しあう必要はないのではないか、と思います。

Page 66: Social IME: サーバサイド日本語入力とログ活用サービス

個人情報保護法個人情報取扱事業者の主な義務

利用目的は事前にハッキリしておく(15条)利用目的を超えた利用は NG (16条)本人の同意なしに第三者に提供は NG ( 23条)

個人情報の定義特定の個人を識別できる情報他の情報と容易に照合することができることに

より,特定の個人を識別することができる情報つまり・・・

個人を特定できない範囲で公開は OK入力履歴の生データの公開は NG辞書は個人情報に当たらないとするので OK

Page 67: Social IME: サーバサイド日本語入力とログ活用サービス

不満

Q. 既存の IME に不満があるか?

A. 既存の IME はスタンドアロンです。アルゴリズムはかなりのものですが、単語の辞書は充実しているとはいえません。

また、 IME の入力ログを用いたライフログ、似た人検索はまったく新しいサービスです。

Page 68: Social IME: サーバサイド日本語入力とログ活用サービス

Q. 誰が使うのか?

A.最初は主に次のようなユーザを想定しています。Web サービスのヘビーユーザ

mixi ユーザはてなユーザ

専門用語のヘビーユーザIT関連医療用語法律用語

時間をかけて一般層への浸透を図ります。

ターゲットユーザ

Page 69: Social IME: サーバサイド日本語入力とログ活用サービス

パフォーマンス

Q.通信がボトルネックにならないか?

A. テキストデータなので、大して速度は必要ないはずです。

Ajax IME の速度は超えたいです。

Page 70: Social IME: サーバサイド日本語入力とログ活用サービス

サーバの負荷

Q. サーバの運営は大丈夫? 落ちない?

A.回線負荷は大丈夫だと思います。問題はサーバの計算負荷です。

必要に応じて負荷分散しますが、あまりに重いようならクライアントの CPU

を使わせてもらうことになるでしょう。

Page 71: Social IME: サーバサイド日本語入力とログ活用サービス

MS-IME と併用

Q.MS-IME と併用は?

A. 次のようにして併用できるようにします。単語の辞書をインポートできる切り替えて使用できる

Page 72: Social IME: サーバサイド日本語入力とログ活用サービス

オフライン

Q. マシンがオフラインのときは?

A.当面は MS-IME と併用してもらいます。

オフライン用のモードも考えていますが、Anthy の Windows での実装がなく、データの同期も面倒なので後回し。

プロジェクト期間終了後に実装します。

Page 73: Social IME: サーバサイド日本語入力とログ活用サービス

単語登録だけ

Q. 単語登録だけではだめか?

A. 「辞書のオンラインアップデート」だけなら、

ATOK等が既にやっています。

登録された単語の信頼性が分からないという問題もあります。

Page 74: Social IME: サーバサイド日本語入力とログ活用サービス

プラグイン

Q.MS-IME のプラグインとして実装は?

A. 次の理由から、できません。MS-IME がプラグインを用意していない個人辞書では優先度が最大になってしま

う登録された単語の信頼性が不明ATOK は調べていませんが、有料なので十分なデータが集まらないと思われます。

Page 75: Social IME: サーバサイド日本語入力とログ活用サービス

既存システムMS-IME,ATOK

スタンドアロンの日本語入力。Canna,Wnn

LAN 内での辞書の共有が可能。インターネット全体では不可能。

Ajax IMEブラウザ上でのみ動作。パーソナライズや単語登録がない。

SKK入力方式が特殊で使いづらい

結論Social IME のようなシステムは存在しない。

Page 76: Social IME: サーバサイド日本語入力とログ活用サービス

MS-IME

Q.MS-IME とはどう違うか?

A.MS-IME はスタンドアロンのシステムです。

アルゴリズムはかなりのものですが、単語の辞書は十分とはいえません。

Page 77: Social IME: サーバサイド日本語入力とログ活用サービス

Canna

Q.Canna とはどう違うか?

A. Canna は LAN 内でのみ使用可能なサーバです。イントラ向け ATOK などのグループウェアなどもあります。

Social IME はインターネットで公開するため、

ユーザが多く、ロングテール型をしており、集合知を集めやすいことが重要です。

Page 78: Social IME: サーバサイド日本語入力とログ活用サービス

Ajax IME

Q.Ajax IME とはどう違うか?

A.Ajax を使った IME では、ブラウザでしか使えません。ブラウザのみでは IME として不便であり、十分とはいえません。また Ajax IME にはパーソナライズや単語登録がありません。

Page 79: Social IME: サーバサイド日本語入力とログ活用サービス

SKK

Q.SKK とはどう違うか?

A.SKK は CGI で単語を登録できるが、辞書は DL して使用するので不便です。変換サーバの公開はありません。

何よりも、入力方式が特殊で使いづらい。

Page 80: Social IME: サーバサイド日本語入力とログ活用サービス

異分野Wikipedia

そもそも百科辞典と辞書は異なります。読み仮名や品詞の取得が困難です。

テキストマイニングブログやニュースサイトの解析はあります。テキストマイニングとの連携は考えています。

mixi“ 似た人検索”における連携は考えています。非公開日記のマイニングができればよいのですが。

結論Web アプリなどの分野が異なるところで、似たようなことをやっている例は多い。しかし、 IME を目的とした例は無い。

Page 81: Social IME: サーバサイド日本語入力とログ活用サービス

Wikipedia

Q.Wikipedia と提案の辞書共有機能はどう違うか?

A.コンセプトは非常に似ています。ただし Wikipedia は百科事典、提案の辞書共有は日本語入力の辞書、この両者は分野が異なります。

実際に Wikipedia から正確な単語の読み方や品詞を取得することは困難です。

Page 82: Social IME: サーバサイド日本語入力とログ活用サービス

ブログ

Q. ブログと提案のライフログ機能はどう違うか?

A. ライフログ機能は、普段からブログを書いている人には重複するかもしれません。しかしそうでない人や、ブログ以外の場所で入力した文章も参照できる点が異なります。

Page 83: Social IME: サーバサイド日本語入力とログ活用サービス

テキストマイニング

Web 上のテキストマイニングと連携することを

考えています。

具体的には、その日のニュースに関連する単語を変換可能

登録した人のブログをマイニングして利用Wikipedia をマイニングして利用はてなのキーワードを辞書に利用

Page 84: Social IME: サーバサイド日本語入力とログ活用サービス

ニッチ市場

“Social IME” という直球のアイデアなんで今まで無かったのか不思議Google が日本企業だったならとっくに作っていたであろうソフト

ターゲットは日本という国の巨大なニッチ市場

及び中国語圏のもっと巨大なニッチ市場

Page 85: Social IME: サーバサイド日本語入力とログ活用サービス

データ重要

データを集め、自分で保有することが重要と

“Data is Next Intel Inside.”ソフトウェアよりもデータが重要ある意味、未踏ソフトウェアにあるまじき

考え

Page 86: Social IME: サーバサイド日本語入力とログ活用サービス

Anthy

オープンソースのかな漢字変換エンジン京都大学を中心に 2000 年より開発2001 年度未踏ソフトウェア創造事業に採択Fedore Core, Vine Linux に標準採用Windows の実装はない

Page 87: Social IME: サーバサイド日本語入力とログ活用サービス

SEO

単語ごとのページを自動生成「未踏性」が変換できない!

→Social IME なら変換できます「プログラマブル」が変換できない!

→Social IME なら変換できます「集合知」が変換できない!

→Social IME なら変換できます「データマイニング」が変換できない!

→Social IME なら変換できます

類似語同士をリンクして PageRank 上昇

Page 88: Social IME: サーバサイド日本語入力とログ活用サービス

プロジェクト期間20082007 2009

ネットワーク外部性指数関数的にユーザ数が増加

ユー

ザ数

α

版公開β

版公開

正式公開

デファクト・スタンダー

目標

Page 89: Social IME: サーバサイド日本語入力とログ活用サービス

開発予定オフラインモード開発クライアント CPU を用いた負荷分

散予測変換を実装「もしかして~」を実装

その他API 提供や連動広告によるビジネス化メーカー PCへのプリインストール

プロジェクト終了後の予定