43
背景 方法 結果 考察 課題 はじめに / 41 携帯電話のGPSログデータを用いた 人々の行動パターンの分類 東京大学大学院 西村隆宏 1 GISA学術研究発表Web大会

2013 gis学会 発表スライド

Embed Size (px)

DESCRIPTION

GISA学術研究発表Web大会

Citation preview

Page 1: 2013 gis学会 発表スライド

背景 方法 結果 考察 課題はじめに

/ 41

携帯電話のGPSログデータを用いた 人々の行動パターンの分類

東京大学大学院 西村隆宏

1

GISA学術研究発表Web大会

Page 2: 2013 gis学会 発表スライド

背景 方法 結果 考察 課題はじめに

/ 41

Agenda・背景 ・方法 ・結果 ・考察 ・課題

: GPSデータを取り巻く環境

: 分類に関する既存データの利用

: 分析結果について

: 分析結果から導けること

: 今後研究を進める上での課題

2

Page 3: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41

背景

3

Page 4: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41 4

社会の変化 既往研究

Page 5: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41 5

社会の変化 既往研究

Page 6: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41

購入行動の変化 6

顧客の嗜好は多様化している

1960~2000 現在

・大量生産大量消費 ・少量生産少量消費

・実店舗で購入 ・Web通販で購入

Page 7: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41 7

顧客調査の手法・アンケート調査 - 訪問調査 - 利点: 回収率が高い - 欠点: 大量・広域の情報を取得できない - Web調査 - 利点: 大量に情報を取得できる - 欠点: サンプルが偏る、回収率が低い

アンケート調査は簡単だが限界もある

Page 8: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41 8

顧客調査の手法・POSデータの分析 - 利点 顧客の嗜好傾向が非常にわかりやすい

- 欠点 個人属性がわからないので、調査内容が限定的になってしまう

POSデータにも調査の限界がある

Page 9: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41 9

GPSデータの利活用

ハンドリングが難しいが、応用性は非常に高い

・GPSデータ - 利点 ユーザーの行動が明らかになる 様々な調査に応用が可能

- 欠点 非集計かつ空間データのため、扱いが 複雑である

Page 10: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41 10

GPSデータの活用例・モバイル広告代理店

ユーザーの位置・時間から最適な広告を配信

広告配信 DB

百貨店

カフェ 流行もの レストラン

ユーザー

10:00AM 15:00PM 18:00PM

Page 11: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41 11

社会の変化 既往研究

Page 12: 2013 gis学会 発表スライド

はじめに 方法 結果 考察 課題背景

/ 41 12

既往研究

行動パターンの分類はGPSデータで可能である

*GPSを用いた新宿御苑における利用者の行動パターンに関する研究, 日本造園学会誌 69,601,604

・山本らの研究* - 研究対象地域を複数のエリアに分割し 被験者の通過状況をもとに 行動パターンの分類を行った。

年齢、グループ構成で 行動パターンに違いがある

Page 13: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41

方法

13

Page 14: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41

使用したデータ 14

・混雑統計® ・事業所, 企業統計調査 ・Cameoコード対象エリア:東京急行電鉄2km沿線

Page 15: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41

使用したデータ 15

・混雑統計® ・事業所, 企業統計調査 ・Cameoコード

Page 16: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41 16

混雑統計

本研究で最も重要なデータ

id date lon lat Precision

442010/8/1 0:45 140.454154 37.683889 1

239 2010/8/1 0:45

140.452909 37.683889 1

342 2010/8/1 0:45

140.456944 37.683889 1

378 2010/8/1 0:45

140.454154 37.683889 3

精度が悪いデータは滞留点の計算時に 除外する

Page 17: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41

使用したデータ 17

・混雑統計® ・事業所, 企業統計調査 ・Cameoコード

Page 18: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41 18

事業所・企業統計調査

地域分類のためのデータ

メッシュコード 事業所数 従業員数

533900043 1 6

533900051 1 10

533900053 2 27

533900071 1 221

533900073 2 4

533900074 4 2

533900081 1 76

事業所・企業統計調査表 分類結果表

Page 19: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41

使用したデータ 19

・混雑統計® ・事業所, 企業統計調査 ・Cameoコード

Page 20: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41 20

Cameoコード

グループNo. 特徴

1 裕福な単身・二人世帯の多い都会地域

2 裕福な中高年の多い地域

3 裕福なファミリーの多い地域

4 比較的裕福な単身者の多い地域

5 ホワイトカラー・2世帯住宅の多い地域

6 平均的な中高年の多い地域

Page 21: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41 21

使用データのまとめ

滞留点 使用データ

混雑 統計®

推定居住地 Cameoコード

非推定居住地 事業所・企業 統計調査

Page 22: 2013 gis学会 発表スライド

はじめに 背景 結果 考察 課題方法

/ 41 22

解析のフロー事業所統計

Cameo コード

混雑統計 滞留点を推定

滞留点データ

居住地かどうか

500mメッシュに集計

メッシュを分類

商業コード

Cameoコードを割り当て

滞留点を商業コードに変換し、

集計

各Cameoコード別にユーザー分

クラスタ数の決定

クラスタサイズが最大か

標準行動クラスタと命名

非標準行動クラスタと命名

標準行動クラスタと非標準行動クラスタの類似度を計算

yes no

yes

no

End

Start

Page 23: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41

結果

23

Page 24: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 24

事業所統計

Cameo コード

混雑統計 滞留点を推定

滞留点データ

居住地かどうか

500mメッシュに集計

メッシュを分類

商業コード

Cameoコードを割り当て

滞留点を商業コードに変換し、

集計

各Cameoコード別にユーザー分

クラスタ数の決定

クラスタサイズが最大か

標準行動クラスタと命名

非標準行動クラスタと命名

標準行動クラスタと非標準行動クラスタの類似度を計算

yes no

yes

no

End

Start

Page 25: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 25

UserID lon lat flag358 139.657214535.571478 1528 139.65522 35.570136 1811 139.65707634.844495 11290 135.4485606535.167193 21305 139.80227634.832681 12028 137.05060833.527822 02069 139.00638336.350873 02115 139.00515 36.34136 12142 130.092499536.3429395 13381 130.092499533.290681 1

     1: 居住地      2: 勤務地      3: 駅      0: その他

のフラグがついており、 このフラグをもとに滞留点を 各データに変換する

Page 26: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 26

事業所統計

Cameo コード

混雑統計 滞留点を推定

滞留点データ

居住地かどうか

500mメッシュに集計

メッシュを分類

商業コード

Cameoコードを割り当て

滞留点を商業コードに変換し、

集計

各Cameoコード別にユーザー分

クラスタ数の決定

クラスタサイズが最大か

標準行動クラスタと命名

非標準行動クラスタと命名

標準行動クラスタと非標準行動クラスタの類似度を計算

yes no

yes

no

End

Start

Page 27: 2013 gis学会 発表スライド

/ 41 27

Page 28: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 28

事業所統計

Cameo コード

混雑統計 滞留点を推定

滞留点データ

居住地かどうか

500mメッシュに集計

メッシュを分類

商業コード

Cameoコードを割り当て

滞留点を商業コードに変換し、

集計

各Cameoコード別にユーザー分

クラスタ数の決定

クラスタサイズが最大か

標準行動クラスタと命名

非標準行動クラスタと命名

標準行動クラスタと非標準行動クラスタの類似度を計算

yes no

yes

no

End

Start

Page 29: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 29

集計結果UserID Cameo 1 2 3 4 5358 2 31 88 214 54 129528 2 0 7 264 357 4811 1 71 32 133 23 581290 1 15 40 484 67 821305 1 29 30 136 7 6872028 1 288 205 428 3 1712069 2 39 69 342 488 4042115 4 14 77 664 121 692142 4 14 92 983 635 1593381 1 3 14 371 43 274

UserID Cameo 1 2 3 4 5358 2 0.06 0.17 0.41 0.1 0.25

528 2 0 0.01 0.42 0.56 0.01

811 1 0.22 0.1 0.42 0.07 0.18

1290 1 0.02 0.06 0.7 0.1 0.12

1305 1 0.03 0.03 0.15 0.01 0.77

2028 1 0.26 0.19 0.39 0 0.16

2069 2 0.03 0.05 0.25 0.36 0.3

2115 4 0.01 0.08 0.7 0.13 0.07

2142 4 0.01 0.05 0.52 0.34 0.08

3381 1 0 0.02 0.53 0.06 0.39

頻度表の一部 正規化後の表の一部

Page 30: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 30

事業所統計

Cameo コード

混雑統計 滞留点を推定

滞留点データ

居住地かどうか

500mメッシュに集計

メッシュを分類

商業コード

Cameoコードを割り当て

滞留点を商業コードに変換し、

集計

各Cameoコード別にユーザー分

クラスタ数の決定

クラスタサイズが最大か

標準行動クラスタと命名

非標準行動クラスタと命名

標準行動クラスタと非標準行動クラスタの類似度を計算

yes no

yes

no

End

Start

Page 31: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 31

クラスタリング結果

Cameoコード1番ユーザーの クラスタリング結果

495人

138人

179人

330人

標準行動 クラスタ

非標準行動 クラスタ

Page 32: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 32

クラスタリング結果居住地属性 人数 居住地属性 人数1-1 495 3-3 171-2 138 3-4 151-3 179 4-1 541-4 330 4-2 952-1 153 4-3 312-2 163 4-4 782-3 87 4-5 542-4 169 5-1 212-5 82 5-2 483-1 20 5-3 443-2 16

Page 33: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 33

事業所統計

Cameo コード

混雑統計 滞留点を推定

滞留点データ

居住地かどうか

500mメッシュに集計

メッシュを分類

商業コード

Cameoコードを割り当て

滞留点を商業コードに変換し、

集計

各Cameoコード別にユーザー分

クラスタ数の決定

クラスタサイズが最大か

標準行動クラスタと命名

非標準行動クラスタと命名

標準行動クラスタと非標準行動クラスタの類似度を計算

yes no

yes

no

End

Start

Page 34: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 34

類似度計算 1/2・標準行動クラスタ間の類似度を計算する

1 2 3 42 0.173 0.78 0.584 0.98 0.13 0.715 0.06 -0.41 -0.25 0.16

Page 35: 2013 gis学会 発表スライド

はじめに 方法背景 考察 課題結果

/ 41 35

類似度計算 2/21 2 3 4 5

1-2 0.44 0.39 0.57 0.45 0.681-3 0.61 0.59 0.62 0.75 0.74

1-4 0.64 0.58 0.85 0.63 0.84

2-1 0.63 0.57 0.83 0.64 0.81

2-2 0.75 0.75 0.67 0.85 0.7

2-3 0.37 0.35 0.43 0.56 0.64

2-5 0.54 0.5 0.67 0.58 0.79

3-2 0.57 0.56 0.57 0.72 0.69

3-3 0.47 0.41 0.66 0.5 0.8

3-4 0.89 0.9 0.74 0.86 0.59

4-1 0.88 0.89 0.69 0.85 0.53

4-3 0.52 0.45 0.78 0.51 0.69

4-4 0.59 0.54 0.72 0.68 0.87

4-5 0.49 0.48 0.48 0.66 0.63

5-1 0.44 0.43 0.45 0.62 0.63

5-2 0.9 0.9 0.76 0.88 0.64

類似度表

・すべての組み合わせにおいて類似度を計算する1-2 51-3 41-4 32-1 32-2 42-3 52-5 53-2 43-3 53-4 24-1 24-3 34-4 54-5 45-1 55-2 4対応表

Page 36: 2013 gis学会 発表スライド

はじめに 方法背景 結果 課題考察

/ 41

考察

36

Page 37: 2013 gis学会 発表スライド

はじめに 方法背景 結果 課題考察

/ 41 37

グループNo. 特徴

1 裕福な単身・二人世帯の多い都会地域

2 裕福な中高年の多い地域

3 裕福なファミリーの多い地域

4 比較的裕福な単身者の多い地域

5 ホワイトカラー・2世帯住宅の多い地域

6 平均的な中高年の多い地域

Cameoコードの特徴

1 2 3 42 0.173 0.78 0.584 0.98 0.13 0.715 0.06 -0.41 -0.25 0.16

各標準クラスタ間の相関

年齢によって行動パターンが変化する

考察

Page 38: 2013 gis学会 発表スライド

はじめに 方法背景 結果 課題考察

/ 41 38

同地域内居住者で行動が異なる人が一定数いる

考察1-2 51-3 41-4 32-1 32-2 42-3 52-5 53-2 43-3 53-4 24-1 24-3 34-4 54-5 45-1 55-2 4対応表

・居住地のCameoコードと異  なる地域の標準クラスタと  類似度が高い

Page 39: 2013 gis学会 発表スライド

はじめに 方法背景 結果 課題考察

/ 41 39

考察1 2 3 4 5

1-2 0.44 0.39 0.57 0.45 0.681-3 0.61 0.59 0.62 0.75 0.741-4 0.64 0.58 0.85 0.63 0.842-1 0.63 0.57 0.83 0.64 0.812-2 0.75 0.75 0.67 0.85 0.72-3 0.37 0.35 0.43 0.56 0.642-5 0.54 0.5 0.67 0.58 0.793-2 0.57 0.56 0.57 0.72 0.693-3 0.47 0.41 0.66 0.5 0.83-4 0.89 0.9 0.74 0.86 0.594-1 0.88 0.89 0.69 0.85 0.534-3 0.52 0.45 0.78 0.51 0.694-4 0.59 0.54 0.72 0.68 0.874-5 0.49 0.48 0.48 0.66 0.635-1 0.44 0.43 0.45 0.62 0.635-2 0.9 0.9 0.76 0.88 0.64

類似度表

居住地属性 人数 居住地属性 人数1-1 495 3-3 171-2 138 3-4 151-3 179 4-1 541-4 330 4-2 952-1 153 4-3 312-2 163 4-4 782-3 87 4-5 542-4 169 5-1 212-5 82 5-2 483-1 20 5-3 443-2 16

各クラスタサイズの表

・例えばCameoコード1番に居住する人のうち、  中高年者が12%, 裕福なファミリーが15%含ま  れているとわかる。

Page 40: 2013 gis学会 発表スライド

はじめに 方法背景 結果 課題考察

/ 41

本研究のまとめ 40

・GPSデータから滞留点を推定 ↓

・居住推定地と非居住地に分類し、  居住地傾向から各ユーザーの属性を推定

裕福と推定される人々の個人属性は推定可能

Page 41: 2013 gis学会 発表スライド

はじめに 方法背景 結果 考察 課題

/ 41

課題

41

Page 42: 2013 gis学会 発表スライド

はじめに 方法背景 結果 考察 課題

/ 41

課題 42

・地域分類がまだ不完全

・日本全国を対象に行う

・滞留点の滞留時間を考慮に入れる

・推定勤務地の情報も追加する

さらに細かく分類する必要がある

Page 43: 2013 gis学会 発表スライド

はじめに 方法背景 結果 考察 課題

/ 41 43

ご静聴ありがとう ございました