10
データマイニング入門 前橋工科大学 鍾寧 本村 信一 冨田 浩平 概要 我々の暮らしの中には,POS データやカードデータ,Web サイトによ り得られるデータ,顧客管理情報や売上データ,気象や地震のデータ など,多種多様なデータが存在します.しかし,利用者のニーズはさ まざまであるため,それらに対して適確な回答を即座に出すことは, 非常に困難だと言えるでしょう. データマイニングとは,大量のデータから利用者のニーズに対し必 要な情報だけを集め,分析することで知識を発掘(知識発見)するとい うIT技術のことです. データマイニングは,主に科学技術の発展や環境の保護,宇宙開発 の支援やビジネスへの展開,医療福祉,教育の高度化など,さまざま な分野への活用が期待されています.

データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

データマイニング入門

前橋工科大学鍾寧

本村信一冨田浩平

概要

我々の暮らしの中には,POS データやカードデータ,Web サイトによ

り得られるデータ,顧客管理情報や売上データ,気象や地震のデータ

など,多種多様なデータが存在します.しかし,利用者のニーズはさ

まざまであるため,それらに対して適確な回答を即座に出すことは,

非常に困難だと言えるでしょう.

データマイニングとは,大量のデータから利用者のニーズに対し必

要な情報だけを集め,分析することで知識を発掘(知識発見)するとい

う IT 技術のことです.

データマイニングは,主に科学技術の発展や環境の保護,宇宙開発

の支援やビジネスへの展開,医療福祉,教育の高度化など,さまざま

な分野への活用が期待されています.

Page 2: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

人間の学習と概念形成

9

4 5

6 2

8

7

3 4

1 5

6

8

2 9

?

1. 人間の学習と概念形成

図のような三角形が 4 つ与えられているとき,下の四角形の“?”に

はいったいどのような値が入るでしょうか?

人間は,このような問題を見たとき,頭の中で上の 4 つの三角形

(実例)から仮説(概念)を学習し,それを下の四角形に適応させること

により解を得ようとします.この例では,複数の仮説から「上の数の

和=下の数の和である」という概念を形成して,下の四角形に当てはめ

ることで,「“?”の値は 3 である」ということを導き出します.

今回の実例のように,データ量がこの程度であれば人間にも処理す

ることができますが,量が増えると人間には処理することが難しくな

ります.そこで,大量のデータを分析・処理するために,「データマイ

ニング」という技術が注目されています.

Page 3: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

2. データマイニングとは

「マイニング」とは本来「採掘(mining)」のことを指します.採掘

とは,「鉱山」から「鉱物」を掘り出し,その鉱物を精製することによ

り「金属」を取り出すまでの一連の作業のことを指します.

これをコンピュータの世界に置き換えて考えると,「データベース」

という鉱山から「データ」という鉱物を掘り出し,「知識」という金属

を精製するという一連の作業のことである,と解釈することができま

す.

つまり「データマイニング」とは,大量のデータの中から必要な情

報だけを集めて分析し,知識を発掘(知識発見)するという IT 技術のこ

とです.21 世紀の情報社会においてビジネスや産業,科学技術でリー

ドするための重要なキーワードであるといえるでしょう.

Page 4: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

データは集まる膨大に!

POSデータ カードデータ Webサイト

多種多様なデータを大量に蓄積

日常生活のコンピュータ化・ネットワーク化の進展

これらのデータから何か判ることはないか?

3. なぜデータマイニングなのか?

我々の暮らしに目を向けてみると,行き交う情報の量が飛躍的に増

大していることに気づくでしょう.例えばPOSデータやカードデータ,

Web サイトにより得られるデータ,顧客管理情報や売上データ,気象や

地震のデータに至るまで,多種多様なデータで溢れています.「効率的

な管理をしたい」「顧客を増やし利益を伸ばしたい」「新たな知識の発

見を行いたい」といった要望を持っていても,そのために集まってく

るデータは膨大な量になるのです.

データマイニングは先進の IT 技術により,これらの問題を解決へと

導いてくれます.生のデータから有意義なルールや知識が発見できる

データマイニングは,あらゆる産業の高度化のために活用が期待され

ています.

Page 5: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

… …... …

… …

Selection

Pre-processing

Transformation

Data mining

Interpretation/Evaluation

Target Data

Preprocessed Data

Transformed Data

Patterns

Knowledge

Database

データマイニングプロセス

4. データマイニングによる知識発見のプロセス

データマイニングによる知識発見のプロセスは,図のような流れに

なります.

まず,データベースから必要なデータを選別するなどの前処理を行

います.次に,前処理を行ったデータを変換し,その変換したデータ

を用いてマイニングを行います.それによって生成されたルールやパ

ターンを解釈・理解・評価することによって,実用的な知識を発見し

ます.

実際には,より質の高い知識を得るため,この一連の流れを繰り返

し行います.また,生成した知識を知識ベースに格納し,前処理など

の過程で後々使うことができるようにします.

Page 6: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

高性能高性能計算計算

知識ベース知識ベースデータベースデータベース

帰納論理帰納論理プログラミングプログラミング

ソフトソフトコンピューティングコンピューティング

ハイブリットハイブリットシステムシステム

統計学統計学

ラフ集合ラフ集合理論理論

機械機械学習学習

知的・マルチ知的・マルチエージェントエージェント

認知認知科学科学

KnowledgeKnowledgeDiscoveryDiscovery

&&Data MiningData Mining((KDDKDD))

5. データマイニング手法

データマイニングは様々な学術・技術分野から成り立っています.

分散分析や相関分析といった統計学,機械学習や帰納論理プログラミ

ングなどの人工知能分野,高性能計算や先進のデータベースといった

コンピュータハードウェア&ソフトウェア技術,心理学や臨床実験を

駆使した認知科学などの手法・技術によってデータマイニングは支え

られています.

最近では,複数の手法・技術を融合したハイブリッドシステムによ

るデータマイニングや,複数のコンピュータが協調して処理を行う知

的マルチエージェントの研究,従来の集合論を拡張したラフ集合の研

究が進められており,今後応用分野において大きな成果が期待されて

います.

Page 7: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

顧客データ

固定客

潜在的顧客

移り気な顧客

顧客属性の類似性から自動的にクラスター分類

検証

ZのCDが安いから欲しいでも、どうして私の好みを知っているの?

Aさんは以前Bと言うアーティストのCDを購入したからZに関しても興味があるはず。

「ZのCDが今安いです。」

ターゲット・マーケティング

6. 実例(ターゲット・マーケティング)

これまで商品やサービスを宣伝する場合,相当のコストをかけて CM

や雑誌等の媒体を用い,大勢の顧客に対し伝える方法が主流でした.

しかしこの方法では,必要以上のコストがかかる上,興味のない人に

まで情報を伝えてしまうという欠点があります.

そこでデータマイニングを駆使して,すでに顧客となっている人々

の特徴を割り出し,商品やサービスを購入してくれそうな顧客に対し

て宣伝する「ターゲット・マーケティング」が注目され始めました.

現在,マーケットデータの適用に向け研究が進められています.イ

ンターネットの普及によって企業と顧客の距離が縮まっている中,企

業にとって顧客満足度を上げ,宣伝コストを最小限に抑えるターゲッ

ト・マーケティングの存在は必要不可欠といえます.

Page 8: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

7. 実例(医療データのマイニング)

医療データのマイニング

臨床データ

医療機器による

計測データ

データマイニング

投薬効果・ 人体機能解明

病院・研究所

急速な高齢化が進む今日,診察や研究のための検査結果などから有

用な発見を行うことは,極めて意義のあることです.実例として肝炎

検査データと脳画像データのマイニングについて紹介します.

現在,肝炎患者に対する投薬の効果については不明な点が多く,文

部科学省の特定領域研究に指定される重要課題となっています.そこ

で,データマイニングを検査結果に適用することで,新たなルールや

医学知識の発見を得ようとする試みがなされています.

一方,人間の脳機能の解明は,医学的にも工学的にも大変重要な研

究課題です.近年,fMRI という,脳機能を計測・画像化する手法が開

発されました.脳画像情報はノイズが多くデータ容量も膨大なため,

マイニングの適用効果について大きな期待が寄せられています.

Page 9: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

テキストマイニング

形態素解析

構文解析

意味解析

文脈解析

不確定サンプリング法

ニューラル

ネットワーク

関係学習

Granular Computing

NLP DM

TDB

分野

主題

要約

キーワード

オントロジー

ルール

Web-datae-mailse-librarye-papers e-books…

TDB

8. 実例(テキストマイニング)

テキストマイニングとは,Web のデータ(HTML など)や e-メール等の

電子文書をもとに,役に立つ知識や情報を取り出すマイニングのこと

です.

流れとしては,まずテキストのデータベースに格納された,形式化

されていない生データを用いて構文解析や意味解析などの解析作業を

行います.その解析結果からニューラルネットワークや関係学習など

によりデータマイニングを行うことで,ルールやオントロジーの抽出

や分類などを実現します.

テキストマイニングを用いることで,後述する Web マイニングへの

活用や,企業におけるさまざまな問い合わせに対し迅速な対応が可能

になるなど,応用範囲は多岐にわたります.

Page 10: データマイニング入門Data mining Interpretation/ Evaluation Target Data Preprocessed Data Transformed Data Patterns Knowledge Database データマイニングプロセス

Webマイニングの分類

Web Logs

Webコンテンツマイニング

Web利用マイニング

Web構造マイニング Webコミュニティ

HTMLDocument-1

Email-1 …User Profiles

..….

9. Web マイニング

Web マイニングとは,Web 上にある企業や個人のグローバル情報ソー

スから有用な知識や情報を抽出し,活用する技術です.

Web マイニングは主に,Web の構造からマイニングを行う“Web 構造

マイニング”や,Web に書かれている内容からマイニングを行う“Web

コンテンツマイニング”,利用者の閲覧データなどからマイニングを行

う“Web 利用マイニング”に分類されます.

Webマイニングにより,「Webの利用が容易に,かつ多様的になる」「Web

を構築しやすくなり,システム管理者に対する負荷が軽減される」と

いったメリットが挙げられます.そして,e-ビジネスや e-コマース,

電子政府などへの応用が考えられています.