28
1 ネネネネネネネネネネネ 情情情情情情情情情情情情 情情情 (1 6 情情情情情情情 (http://rd.cc.kyushu-u.ac.jp/~kida/) 情情情情情情情情情情

ネット時代の情報センス

Embed Size (px)

DESCRIPTION

ネット時代の情報センス. 情報検索技術のトピックス (平成1 6 年度版) 喜田拓也 (http://rd.cc.kyushu-u.ac.jp/~kida/). 横山光輝さんの誕生日. はじめに. ウェブ上で効率よく情報をさがす方法 検索エンジンについて ロボット検索エンジンの仕組み キーワードの選び方 その他のトピックス 喜田のこれまでの研究 データ圧縮と文字列照合 さいごに. 検索エンジンとは. 利用者. 検索結果. ウェブ上から情報を探し出すツール 電子メールの次のよく利用されているサービス インターネットユーザの 80 %が利用している - PowerPoint PPT Presentation

Citation preview

Page 1: ネット時代の情報センス

1

ネット時代の情報センス

情報検索技術のトピックス(平成1 6 年度版)

喜田拓也(http://rd.cc.kyushu-u.ac.jp/~kida/)

横山光輝さんの誕生日

Page 2: ネット時代の情報センス

2/33

はじめに ウェブ上で効率よく情報をさがす方法

検索エンジンについて ロボット検索エンジンの仕組み キーワードの選び方 その他のトピックス

喜田のこれまでの研究 データ圧縮と文字列照合

さいごに

Page 3: ネット時代の情報センス

3/33

検索エンジンとは ウェブ上から情報を探

し出すツール 電子メールの次のよく利

用されているサービス インターネットユーザの

80 %が利用している

検索エンジンの種類 ディレクトリ型 ロボット型

ウェブ

検索エンジンサーバ

巡回

ページ情報

検索結果

問合せ

利用者

データの蓄積と索引化

Page 4: ネット時代の情報センス

4/33

ディレクトリ型検索エンジン(登録型、カテゴリー型)

人手で整理・登録(索引づけ)する

長所 適切なキーワードが分からなくても

検索できる。 検索結果とキーワードとの関係が強い。

短所 検索対象となるページが少ない。

検索エンジン例題: Yahoo! Japan で福岡のケーキ屋をさがそう

Page 5: ネット時代の情報センス

5/33

ロボット型検索エンジン(全文検索型、フリーワード型)

ロボットが自動的に情報を収集し、サーバで自動的に索引づけをする

長所 検索対象となるページが多い。 ページに含まれているすべての語句が

検索対象になる。 短所

無関係なページも多数検索される。

検索エンジン例題: Google で今日が誕生日の有名人をさがそう

Page 6: ネット時代の情報センス

6/33

検索エンジンサービスの相互関係(ディレクトリ型)

2003 月 1 日現在(「検索にガンガンヒットするホームページの作り方」から引用)

Page 7: ネット時代の情報センス

7/33

検索エンジンサービスの相互関係(ロボット型)

2003 月 1 日現在(「検索にガンガンヒットするホームページの作り方」から引用)

Page 8: ネット時代の情報センス

8/33

検索結果の並びの順番 Google などでは、検索結果の並びは検索語

(キーワード)に関連の深い順にならんでいる。 リンク・ポピュラリティー

被リンク数が多ければ多いほどページの得点が高い。 リンク・レピュテーション

リンク文字列=リンク先のページの説明

PageRank 点の高いページからのリンク

> 点の低いページからのリンク

Page 9: ネット時代の情報センス

9/33

キーワードの選び方1.固有名詞は良いキーワード 今やっているドラマについて知りたい!

なるべく固有名詞を用いる。 「ドラマ一覧」・・・一般的な名詞 「2003年春ドラマ」・・・より具体的な名詞

Page 10: ネット時代の情報センス

10/33

キーワードの選び方2.複数のキーワードを用いる キーワードを一つでは、絞り込むのが難しい。

「ドラマ」・・・約 2,090,000 件ヒット!(2003 年 4 月 16 日現在 )

複数個のキーワードを並べてみる。 「ドラマ 一覧」・・・ 約 216,000 件 「ドラマ 一覧 200 3 」・・・ 約 102,000

件 「ドラマ 一覧 2003 春」・・・ 約 9,980

Page 11: ネット時代の情報センス

11/33

キーワードの選び方3.目的のページを想像する 見つけたいページに含まれていると

予想される語句をキーワードにする 「今やってるドラマの一覧」

→ 「 200 3年 春 ブラックジャックによろしく」 「 J-Phone と au の携帯電話はどちらのほうが、

人気が高い?」→ 「携帯電話加入者数」

単語や語句の意味を知りたい→「~とは」「~入門」

うちの近くのお店を知りたい→郵便番号をキーワードに入れる

Page 12: ネット時代の情報センス

12/33

キーワードの選び方4.同義語・類義語に注意する 「 J-Phone 」「 J フォン」「ジェイフォン」 「 au 」「エーユー」「 KDDI 」 「利用者」「加入者」 「さんま」「サンマ」「秋刀魚」

→ キーワードアドバイス サービスを利用してみる

Page 13: ネット時代の情報センス

13/33

キーワードの選び方5.ブーリアン演算子を用いる And 検索、 Or 検索、 Not 検索

クリーム コロッケ

クリーム and コロッケ ・・・ クリームコロッケクリーム or コロッケ  ・・・ ソフトクリーム、コロッケカレーなどクリーム not コロッケ ・・・ コロッケとは関係ないクリーム

Page 14: ネット時代の情報センス

14/33

その他のトピックス 最新情報を探す

「最新」というキーワードでは最新の情報は得られない

フレッシュアイを使おう メタ検索エンジン

Metcha Search (http://bach.scitec.kobe-u.ac.jp/metcha/) 検索デスク (www.searchdesk.com) multifind (www.infofreako.com/factory/multifind/)

検索エンジンスパム 検索エンジンの精度を落とす原因となる (検索エンジンから)厳しい罰則が与えられる

Page 15: ネット時代の情報センス

喜田のこれまでの研究喜田のこれまでの研究データ圧縮技術と文字列照合技術の融合データ圧縮技術と文字列照合技術の融合

Page 16: ネット時代の情報センス

16/33

データ圧縮 符号化

情報(記号列)をデジタル化すること → 本質的に無駄な部分が含まれている!

データ圧縮 データ中の冗長な情報を取り除くことで、データのサイズを小さくすること

データ圧縮法 適応的 Huffman 符号化 算術符号化 LZ77, LZ78, LZW (辞書ベース圧縮) Burrows Wheeler 変換を用いた圧縮 文法変換に基づく圧縮

Page 17: ネット時代の情報センス

17/33

文字列照合 文字列照合(問題)とは

何の役に立つの? キーワード検索 テキスト・データベース処理 データ整形 データ・マイニング スペル・チェッカー ゲノム情報処理

テキスト : オモイコンダラシレンノミチヲイクガオトコノパターン : オトコ

Page 18: ネット時代の情報センス

18/33

研究目的

「この世には不思議なことなど何もないのだよ、関口君」 京極堂を変わり者の東の横綱とすると、榎木津は西の横綱だ。何だか酷く男が羨ましくなつてしまつた。 「楠本君。せいぜい月の光を浴びるがいいよ」「世界中の不幸と苦悩を纏めて背負ったような顔をして、そんなもの誰だって背負っているぞ!ちっとも偉くない。心の暗闇だか何だか知らないが、心に光度(カンデラ)や照度(ルクス)があるか。明るい暗いで善し悪しが決まるのは電灯くらいだ」「僕が落すのは憑物。犯人(ホシ)を落すのは警察。原稿を落すのは関口君だ」「あなたが―蜘蛛だったのですね。」「それが―絡新婦の理ですもの」

「この世には不思議なことなど何もないのだよ、関口君」 京極堂を変わり者の東の横綱とすると、榎木津は西の横綱だ。何だか酷く男が羨ましくなつてしまつた。 「楠本君。せいぜい月の光を浴びるがいいよ」「世界中の不幸と苦悩を纏めて背負ったような顔をして、そんなもの誰だって背負っているぞ!ちっとも偉くない。心の暗闇だか何だか知らないが、心に光度(カンデラ)や照度(ルクス)があるか。明るい暗いで善し悪しが決まるのは電灯くらいだ」「僕が落すのは憑物。犯人(ホシ)を落すのは警察。原稿を落すのは関口君だ」「あなたが―蜘蛛だったのですね。」「それが―絡新婦の理ですもの」

文書ファイル群

圧縮文書ファイル群

Page 19: ネット時代の情報センス

19/33

圧縮されたデータに対する文字列照合

圧縮テキスト圧縮テキスト 原テキスト原テキスト展開

普通の文字列照合機械

圧縮テキストに対する文字列照合機械圧縮テキスト圧縮テキスト

Page 20: ネット時代の情報センス

20/33

「展開しないで」法「展開しないで」法

「展開してから」法「展開してから」法

「展開しながら」法「展開しながら」法

この問題に対する3つの手法

目標1: これらより速い!目標1: これらより速い!事情により差し替えてます・・・

Page 21: ネット時代の情報センス

21/33

研究の成果(その1)

0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

5 10 15 20 25 30パタンの長さ

CP

U時間(秒)

compress(LZW)+KMP

AlphaStation XP1000(Alpha21264: 667MHz)Tru64 UNIX V4.0F

Genbank ( DNA 塩基配列)17.1Mbyte

AlphaStation XP1000(Alpha21264: 667MHz)Tru64 UNIX V4.0F

Genbank ( DNA 塩基配列)17.1Mbyte

T. Kidaら [1998]

gunzip(LZ77)+KMP

ビットパラレルによる高速化 [1999]

「展開しながら」法「展開しながら」法

「展開しないで」法「展開しないで」法

Page 22: ネット時代の情報センス

22/33

ディスク容量は十分あるったい!ディスク容量は十分あるったい!

Page 23: ネット時代の情報センス

23/33

×××

×

容量は十分あるのに、テキストを圧縮して保存しますか?容量は十分あるのに、テキストを圧縮して保存しますか?

圧縮文字列照合する理由は?

Page 24: ネット時代の情報センス

24/33

展開時間展開時間 + 原テキスト上の照合時間

原テキスト上の照合時間

圧縮テキスト上の照合時間

圧縮テキスト上の照合時間>

圧縮文字列照合する理由は?当初の目標当初の目標新目標新目標

Page 25: ネット時代の情報センス

25/33

研究の(凄い)成果 AlphaStation XP1000(Alpha21264: 667MHz)Tru64 UNIX V4.0F

Medline (英文テキスト)60.3Mbyte

AlphaStation XP1000(Alpha21264: 667MHz)Tru64 UNIX V4.0F

Medline (英文テキスト)60.3Mbyte

5 10 15 20 25 30パタンの長さ

0.0

0.3

0.4

0.5

0.8

0.1

0.2

0.6

0.7

CP

U時間(秒)

非圧縮テキストを KMP で照合

BPE 圧縮テキストに対する照合 (KMP)

「展開しないで」法「展開しないで」法

非圧縮テキストを Agrep で照合

BPE 圧縮テキストに対する照合 (BM)Shibata, et al. (2000)

「展開しないで」法「展開しないで」法

Page 26: ネット時代の情報センス

さいごにさいごに

Page 27: ネット時代の情報センス

27/33

その後、取り組んだこと データ圧縮による文字列近似度(編集距離)の計算の高速化

二つの DNA配列の近似度をすばやく測ることができる!

半構造化データに対する文字列照合に関する研究( 2002 年) 大量の XML データに対し、タグ構造を見ながら検索できる。 これまでの研究から、データ圧縮を用いて高速化できないか? 半構造化データを高速に照合できるデータ圧縮法の開発。

< 作家 > < 名前 > 京極夏彦 </ 名前 > < ジャンル > ミステリー、妖怪 </ ジャンル > < 著作 >

< タイトル > 姑獲鳥の夏 </ タイトル >< 出版年 >1994</ 出版年 >< 出版社 > 講談社ノベルス </ 出版社 >

</ 著作 ></ 作家 >

< 作家 > < 名前 > 京極夏彦 </ 名前 > < ジャンル > ミステリー、妖怪 </ ジャンル > < 著作 >

< タイトル > 姑獲鳥の夏 </ タイトル >< 出版年 >1994</ 出版年 >< 出版社 > 講談社ノベルス </ 出版社 >

</ 著作 ></ 作家 >

XML データ例

Page 28: ネット時代の情報センス

28/33

今現在、論文執筆中 VLDC パタンと文字列との間に k文字のミス

マッチを許した照合処理 Variable Length Don’t Care (VLDC) パタン:

*のための*入門 京都*殺人事件

k文字のミスマッチ パタン: 機動戦士*ガンダム* k = 2

OK!: 機動戦士ガンダム ZZ 、機動戦士 V ガンダム、    機動武闘伝 G ガンダム

NG!: 新機動戦記ガンダム W 、∀ガンダム

*: 0 文字以上の任意の文字列にマッチ