Romesburg, H.C. ター分析』内田老鶴圃（東京）...

クラスター分析

浅見泰司東京大学大学院工学系研究科教授

増山篤(2002)作成のパワーポイントを元にしている。

©Yasushi Asami 1

参考文献Romesburg, H.C. 著／西田英郎・佐藤嗣二訳 (1992) 『クラスター分析』内田老鶴圃（東京）奥野忠一，久米均，芳賀敏郎，吉澤正 (1981) 『多変量解析法』日科技連（東京）水野欽司 (1996)『多変量データ解析講義』朝倉書店（東京）Adriaans, P. and Zantinge, D. 著／山本英子・梅村恭司訳(1998) 「データマイニング」，共立出版（東京）Anderberg, M.R.著／西田英郎・佐藤嗣二・江藤香・寺尾裕・宮井正彌訳(1988)『クラスター分析とその応用』内田老鶴圃（東京）宮本定明(1999)『クラスター分析入門：ファジィクラスタリングの理論と応用』森北出版（東京）

１．クラスター分析とは？

似ている物同士をまとめる手法 → 分類分類の基本

似ている物を一緒にする本、動植物、料理の分類価値観（VALS=Value of Life Style, LOV=List of Values）

２つの分類（教師つきと教師なし）教師つき：分類例がある教師なし：分類例がない

分類の仕方ｎ個の観測値をｍ個の群に分類する方法の数第２種スターリング数Ｓn,m＝Σk=0

m (-1)m-k mCk kn

例えば、S25,5＝2,436,684,971,110,751

似ているかどうか・・・類似度の指標・距離

最も簡単な方法

似ている物から順にまとめていく方法（通常のクラスター分析手法はこれ・・・階層的クラスター分析）

クラスター分析の重要性

分類は整理・学問の基礎様々な科学分野で必要

数学・・・同値類→集合の概念生物学・・・霊長目ヒト科ホモサピエンス社会学・・・アソシエーションとコミュニティ法学・・・公法と私法都市計画学・・・土地利用分類

都市構造が把握しやすくなる

分類→分析対象の持つ構造の本質を失うことなく情報を圧縮（できることになっている・・・）

クラスター分析の発展

コンピュータ・インターネットの普及によって膨大な情報、データが日夜生産されている

→膨大なデータからパターンを探り出すことは重要

探索的データ分析

データマイニング

クラスター分析は，この一種とも位置づけられる

クラスター分析の種類

クラスター分析と言ってもいろいろな手法が存在

• 階層的クラスター分析

• 非階層的クラスター分析

階層的クラスター分析

階層的クラスター分析のイメージ

系統立って，階層的に

非階層的クラスター分析

非階層的クラスター分析のイメージ

とにかく似ているものを集めて，グループを作ればいい

類似度・距離

いずれにしても，クラスター分析を行うためには，何らかの基準をもって，二つのサンプルが「似ている」とか「似ていない」とか言う必要がある

類似度、あるいは、距離（非類似度）

類似度が大きいものは似ている

距離が小さいものも似ている

距離の定義

n 個のサンプルおのおのについて、 p 種類の特性が測られたとする

i番目のサンプルの特徴を表すベクトルを(xi1,xi2,….,xip)

とする。

尺度の分類

名義尺度(nominal scale)：区別だけ（血液型、ID番号）

順序尺度(ordinal scale)：大きさは重要でなく、順序のみが重要（大中小）

間隔尺度(interval scale)：差の値が重要（℃）

比率尺度(ratio scale)：０も意味がある間隔尺度（ｍ）

尺度に応じて様々な距離の定義がある

距離の定義

(1) ユークリッド距離

(2) 標準化ユークリッド距離

上のユークリッド距離を標準偏差で基準化

kjkikij xxd 2)(

距離の定義

(3) Karl Pearson距離（scaled Euclidean距離）skk=k番目の変数の標本分散

(4) Minkowski距離m=1ならばcity-block距離、m=2ならばユークリッド距離

kkkjkikij sxxd /)( 2

mjkikij xxd /1

その他の距離• マンハッタン距離，マハラノビス汎距離など

• GDM距離（順序尺度の距離）(Walesiak, 1993)• iとkが近いと分子の第２項は大きな正の値になる

• 他の値と比較してどれだけ近いかを見ていることになる

Walesiak, M. (1993) "Statystyczna analizawielowymiarowa w badaniach marketingowych[Multivariate Statistical Analysis in Marketing Research]" Wroclaw University of Economics, Research Papers no.654.

http://keii.ue.wroc.pl/pracownicy/mw/2010_Walesiak_Dudek_Springer.PDF

類似度の定義

(1) 相関係数

ピアソンの積率相関係数と同じ

その他の距離

マンハッタン距離，マハラノビス汎距離など

i ii i

22 )()(

))((),( yx

少し変わった類似度の定義

ベクトル間の角度

cosθ＝xTy/(|x||y|)xとyが同じ方向（類似度）ならば最大値１

Romesburg, H.C. ター分析』内田老鶴圃（東京）...

Documents

やさしく音声分析法を学ぶ：ケプストラム分析とLPC分析

可视分析文本可视分析

2017 July · 產業分析思維與層次介紹產業分析模型理論與實作 swot 分析波特五力分析 bcg 矩陣分析策略群組分析利潤池與矩陣分析賽局分析

第3章カナダ・ケベック州航空機クラスターの概要と分析jspmi.sakura.ne.jp/material/file/eri/pdf/20200319-2_2.pdf2020/03/19 · - 1 - 第3章カナダ・ケベック州航空機クラスターの概要と分析

マーケティング分析 - sas.com13 主成分分析＋クラスター分析の例 ID付POSデータを顧客別・カテゴリー別に集計主成分分析により次元の縮約（図示できるように）

§1 － 2 筛分分析

クラスターの分析に関するヒアリング調査等の結果と今後に ......クラスターの分析に関するヒアリング調査等の結果と今後に向けた検討

分類分析 (taxometric analysis)

第九章方差分析及回归分析

クラスター分析 Cluster analysis, Clusteringstat.sm.u-tokai.ac.jp/~yama/lect/chuo/2019-08.pdf第8回目データマイニング特講 8 非階層的クラスタ分析 (non-hierarchical

市場分析與風險管理分析

因子分析，共分散構造分析 Factor Analysis Structural Equations Model 第 16 章因子分析 Factor Analysis 主成分分析 Principal Components 第 17 章共分散構造分析

JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群重回帰分析判別分析主成分分析生準相関分析クラスター分析

伝統的企業分析とキャッシュフロー分析による、東芝・ SONY 分析

MATLABによる大規模フリートデータ解析 Part2: クラスター編 · 3 ビッグデータの扱いフリートデータ解析サマリーデスクトップPCでの解析

Doc URL - HUSCAP · PDF fileInstructions for use Title 主成分分析とクラスター分析による中国東北地方の気候区分 Author(s) 趙, 煥宸; 加藤, 央之; 高橋

データサイエンティスト協会木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例〜ビッグデータ時代にクラスター分析はどう変わるか

第六章主成分分析与因子分析

共分散構造分析（ SEM）はパス解析，因子分析，分散分析のす …kano/research/application/gasshuku… · 1 1 共分散構造分析（ SEM）はパス解析，因子分析，分散分析の

第四章相关分析与回归分析