5
点事象集積検出を応用した 産業共集積形態分析の提案 2015/3/7 井上 亮・志賀 康平 東北大学 基盤 (A)「地理情報科学と都市工学の空間情報解析融合技術の戦略的活用」 平成26年度全体報告会 はじめに 産業の地理的集積現象 【誘因】 生産費用・輸送費の削減 企業間の取引費用の削減 高度技能労働者・中間財の集中 現象の発生メカニズムを解明する様々な研究が行われている. 2 はじめに 産業の地理的共集積現象 「関連性がある複数の産業が同じ地域に立地する現象」 発生メカニズムの解明に向けて ・理論モデルに基づく分析 ・産業立地データを用いた実態把握・実証分析 に関する研究が数多く行われている. 地域計画・企業誘致政策の立案など 本研究は,産業立地データを用いた共集積現象の実態把握に着目 3 (共)集積の実証分析に用いられる指標 Ellison and Glaeser (1997) 地域単位の雇用統計データを利用 各地域・各産業従業者割合に基づく指標 EG指標 Duranton and Overman (2005) 事業所立地点・従業者数データを利用 事業所立地点間の距離に基づく指標 DO指標 4 EG指標 (1産業 i 集積) 2 2 1 1 1 1 M M mi m m i m m i i s x x H H s mi :産業 i の全従業者のうち,地域 m の従業者割合 x m : 全産業従業者のうち,地域 m の従業者割合 H i : 産業 i の企業レベルのHerfindahl指標 (独占度指標) 産業A 産業B 地域 I II III IV V 低指標値 高指標値 2 1 2 1 1 M mi m m i M m m s x x (簡略式) 5 <使用データ> 地域単位に集計された雇用統計 産業 A B 地域 I II III IV V 低指標値 高指標値 1 2 1 1 M mi m mj m c m ij M m m s x s x x C s mi : 全国の産業 i の従業者のうち,地域 m の従業者割合 x m : 全産業従業者のうち,地域 m の従業者割合 6 EG指標 (2産業 ij 間の共集積) <使用データ> 地域単位に集計された雇用統計

点事象集積検出を応用した 産業共集積形態分析の提案gis.sk.tsukuba.ac.jp/2012-15_GIS-ASA/2014年度/20150307...2015/03/07  · K関数(Ripley, 1976) との類似性あり

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 点事象集積検出を応用した 産業共集積形態分析の提案gis.sk.tsukuba.ac.jp/2012-15_GIS-ASA/2014年度/20150307...2015/03/07  · K関数(Ripley, 1976) との類似性あり

点事象集積検出を応用した産業共集積形態分析の提案

2015/3/7

井上 亮・志賀 康平東北大学

基盤 (A)「地理情報科学と都市工学の空間情報解析融合技術の戦略的活用」平成26年度全体報告会 はじめに

産業の地理的集積現象

【誘因】生産費用・輸送費の削減企業間の取引費用の削減高度技能労働者・中間財の集中

…現象の発生メカニズムを解明する様々な研究が行われている.

2

はじめに産業の地理的共集積現象「関連性がある複数の産業が同じ地域に立地する現象」

発生メカニズムの解明に向けて・理論モデルに基づく分析・産業立地データを用いた実態把握・実証分析に関する研究が数多く行われている.

地域計画・企業誘致政策の立案など

本研究は,産業立地データを用いた共集積現象の実態把握に着目

3 (共)集積の実証分析に用いられる指標

•Ellison and Glaeser (1997)地域単位の雇用統計データを利用各地域・各産業従業者割合に基づく指標

⇒ EG指標

• Duranton and Overman (2005)事業所立地点・従業者数データを利用事業所立地点間の距離に基づく指標

⇒ DO指標

4

EG指標 (1産業 i の集積)

2 21 1

1

1

M Mmi m m im m

ii

s x x H

H

smi:産業 i の全従業者のうち,地域 m の従業者割合xm: 全産業従業者のうち,地域 m の従業者割合Hi: 産業 i の企業レベルのHerfindahl指標 (独占度指標)

産業A

産業B

地域I II III IV V低指標値

高指標値

2

12

11

Mmi mm

i Mmm

s x

x

(簡略式)

5

<使用データ> 地域単位に集計された雇用統計

産業

A

B

地域I II III IV V

低指標値

高指標値

12

11

Mmi m mj mc m

ij Mmm

s x s x

x

C

smi: 全国の産業 i の従業者のうち,地域 m の従業者割合xm: 全産業従業者のうち,地域 m の従業者割合

6EG指標 (2産業 i j 間の共集積)<使用データ> 地域単位に集計された雇用統計

Page 2: 点事象集積検出を応用した 産業共集積形態分析の提案gis.sk.tsukuba.ac.jp/2012-15_GIS-ASA/2014年度/20150307...2015/03/07  · K関数(Ripley, 1976) との類似性あり

wi: 産業の組み合わせ I の従業者に占める産業 i の従業者数sm: 地域 m における組み合わせ I の従業者割合

H: 組み合わせIの企業レベルのHerfindahl指標

2 2 2

1 1 1

2

1

1 1

1

M M I

m m m i i im m ic

I

ii

s x x H w H

w

m i mii

s w s2i ii

H w H

多産業の組み合わせを事前に設定 ⇒ 共集積の程度を評価可能しかし,共集積する多産業の組み合わせを効率的に発見方法は提案なし.

産業の組み合わせは大量にあるので,分析は困難.

Duranton and Overman (2005) は,EG指標は可変単位地区問題 (MAUP) を有すると批判.・地域区分を変えると指標値が変わる・同一地域に立地していない産業の組み合わせは考慮に入れない

⇒ 隣接地域に立地していても無視される

産業立地地点間の距離に基づく指標を提案

7EG指標 (多産業の組み合わせ I 内の共集積)<使用データ> 地域単位に集計された雇用統計

DO指標 (1産業 i の集積)<使用データ> 各産業事業所の立地位置・従業者数

1

1 1

1ˆ1

n nijEnt

Ai j i

d dK d f

n n h h

n: 全事業所数dij: 事業所 ij 間の距離f : バンド幅 h のガウス型カーネル密度関数

K関数 (Ripley, 1976) との類似性あり

各事業所の位置+従業者を考慮する場合

11 1 11 1

1ˆ n n ijEmpA n n i j i

i j i

d dK d e i e j f

hh e i e j

e(i): 事業所 i の従業者数

8

各事業所の位置のみを考慮する場合

ni: 産業iの事業所数drs: 事業所 rs 間のユークリッド距離f : バンド幅 h のガウス型カーネル密度関数

クロスK関数との類似性あり

1 1

1ˆ i jn nc Ent rsij r s

i j

d dK d fn n h h

1 1

1 1

1ˆ i j

i j

n nc Emp rsij n n r s

r s

d dK d e r e s fhh e r e s

3産業以上からなる共集積を分析することは困難3点以上の近接性の評価方法は?3つ以上の異なる点過程から得られた指標値の統計的性質は?

e(i): 事業所iの従業者数

9DO指標 (2産業 i j 間の共集積)<使用データ> 各産業事業所の立地位置・従業者数

各事業所の位置のみを考慮する場合

各事業所の位置+従業者を考慮する場合

既存の共集積指標のまとめEllison and Glaser (1997) Duranton and Overman (2005)

2産業間の共集積指標

地域の従業者割合(簡略式) 事業所立地点

事業所立地点+従業者数

3産業以上の共集積指標 なし

長所 地域単位の統計から算出可能 3産業以上の共集積も分析可能

事業所間距離に基づく分析で,可変単位地区問題なし

短所

可変単位地区問題あり 3産業以上からなる産業共集積を効率的に探索するアルゴリズムが提案されていない

事業所立地点データが必要 バンド幅設定に結果が依存 3産業以上から構成される共集積の分析は困難

全体的な共集積の程度を示すのみ,共集積が生じている地域を示すことはできない

12

11

Mmi m mj mc m

ij Mmm

s x s x

x

2 2 2

1 1 1

2

1

1 1

1

M M I

m m m i i im m ic

I

ii

s x x H w H

w

1 1

1ˆ i jn nc Ent rsij r s

i j

d dK d fn n h h

1 1

1 1

1ˆ i j

i j

n nc Emp rsij n n r s

r s

d dK d e r e s fhh e r e s

10

本研究の目的既存の産業共集積分析指標では分析ができない/難しい 共集積する産業の組み合わせ(産業共集積形態)の発見 産業共集積が起こっている地域の表示

を行う手法を提案する.

接近法1. 産業別の集積地域検出 False Discovery Rate (FDR)制御法

2. 産業共集積形態の発見・検定頻出パターンマイニングMonte Carlo simulationによる有意性検定

11 本研究の接近法[接近法1] 産業別の集積地域検出[接近法2] 産業共集積形態の発見・検定

産業共集積形態の発見・共集積地域の把握

12

集積 集積

集積集積

集積 集積 集積集積

地域4 地域5 地域6地域3地域2地域1

Page 3: 点事象集積検出を応用した 産業共集積形態分析の提案gis.sk.tsukuba.ac.jp/2012-15_GIS-ASA/2014年度/20150307...2015/03/07  · K関数(Ripley, 1976) との類似性あり

EG指標と提案手法の比較本研究の接近法 EG指標

データ 地域単位の産業・雇用統計

分析の特徴

FDRに基づく統計的検定により産業立地(雇用)データを各産業の集積地域データに縮約

データマイニング手法により産業共集積形態を効率的に発見可能

各産業共集積形態に対し共集積地域を示すことが可能

シミュレーションを通して共集積の有意性を評価可能

各産業の集積地域だけでなく全地域の従業者数分布が共集積指標に反映

共集積を評価するためには産業共集積形態を事前に設定する必要あり

共集積地域は不明

指標の統計的性質について議論されている

13 [接近法1] 産業別の集積地域検出各地域に各産業が集積しているかを統計的に検定.

多重検定問題を生じる!

14

集積 集積

集積集積

集積 集積 集積集積

地域4 地域5 地域6地域3地域2地域1

点事象の集積地域検出に関する既往手法 FDR制御法に基づく方法

e.g., de Castro and Singer (2006), Brunsdon and Charlton (2011) 複数集積地域検出に適する

多重検定問題へ対応

空間スキャン統計に基づく方法e.g., Kulldorff (1997), Mori and Smith(2010)

複数集積地域検出に問題ありある一地域が集積地域であるかを仮説検定する手法多重検定問題への対応しているが,同時に複数の集積地域検出を目指すと多大な計算時間を要する

15 点事象の集積地域検出に関する既往手法 FDR制御法に基づく方法

e.g., de Castro and Singer (2006), Brunsdon and Charlton (2011)

False Discovery Rate (FDR) 偽陽性率(Benjamini and Hochberg, 1995)m 個の帰無仮説を検定しR 個の帰無仮説が棄却された場合を考える

多重検定を行うと,偽陽性(第一種の過誤)の発生 V を増やしてしまう

FDRは偽陽性率の指標

FDR制御法FDRを設定した一定水準 α以下に抑えて仮説検定を行う方法

帰無仮説を棄却

(有意と判定)

帰無仮説を保留

(有意ではないと判定)

帰無仮説真 V U m0

対立仮説真 S T m – m0

計 R m – R m = =0 if =0VFDR E FDR RR

ただし

16

[接近法1] FDR制御法による産業別の集積地域検出

[仮定]産業の事業所 (従業者) 分布はポアソン点過程に従う.各地域には,地域の大きさ (例: 面積・全産業従業者数など) に比例した数が立地する.地域 Z に着目し,地域内外の点密度をそれぞれ とすると

この地域 Z が産業集積地域か否かを検定する仮説[対立仮説] 地域Z は集積

[帰無仮説] 地域 Z は集積ではない

地域 Z大きさ:事業所数:

地域 ZC

大きさ:事業所数:

分析対象領域

ZaZn

CZnCZ

a

, C C CZ Z Z Z Z Zn Poisson a n Poisson a

1 : CZ ZH

0 : CZ ZH

, CZ Z

17 [接近法1] FDR制御法による産業別の集積地域検出全分析対象領域における事業所数の観測数が N

条件【全事業所数= N】の下ではは二項分布に従う

,C C

Z ZZ

Z Z Z Z

an Bi Na a

帰無仮説“ ” が真なら

,C

ZZ

Z Z

an Bi Na a

0 : CZ ZH

したがって,地域 Z の事業所数の観測値が n なら,帰無仮説の p 値は

C

C C

i N iN

Z ZZ

i n Z ZZ Z

aN api a a a a

Zn

18

地域 Z大きさ:事業所数:

地域 ZC

大きさ:事業所数:

分析対象領域

ZaZn

CZnCZ

a

Page 4: 点事象集積検出を応用した 産業共集積形態分析の提案gis.sk.tsukuba.ac.jp/2012-15_GIS-ASA/2014年度/20150307...2015/03/07  · K関数(Ripley, 1976) との類似性あり

[接近法1] FDR制御法による産業別の集積地域検出

FDR制御法 (Benjamini and Hochberg, 1995)検定すべき m 個の仮説があり ( m 地域における集積の有無を検定), その m 個の帰無仮説の p 値を計算する

1. p 値の昇順に並べ替え,p(1),…, p(m)と表す.

2. 有意水準 αに対して, となる最大の k を探す

3. p(1),…, p(k)に対応した帰無仮説を棄却⇒ k 地域が集積地域として抽出される

kkpm

FDR制御法による集積検出では各産業が集積している地域を容易に抽出可能

19 [接近法2] 産業共集積形態の発見・検定i) 共集積形態の候補探索 頻出パターンマイニングii) 有意な共集積形態を抽出 Monte Carlo simulation

20

ii) 有意な共集積形態を抽出

集積 集積

集積集積

集積 集積 集積集積

地域4 地域5 地域6地域3地域2地域1

i) 共集積形態の候補探索

頻出パターンマイニング (Agrawal and Srikant, 1994)FP-growth algorithm (Han et al., 2000) を使用

[接近法1] で得られた産業別集積地域の共起関係を用いて頻出パターンマイニングで共集積候補を探索する.共集積地域数に閾値を設定し,閾値を満たす共集積形態を候補として抽出する.

[接近法2] i) 共集積形態の候補探索 21

集積 集積

集積集積

集積 集積 集積集積

地域4 地域5 地域6地域3地域2地域1頻出

Monte Carlo simulation各形態候補について,シミュレーションとデータから得られた共集積地域数を比較し,有意な共集積形態を抽出する.多くの産業が都市に立地することを考慮するため,各産業の各地域の集積発生確率は,地域の集積産業数に比例するよう設定する.

[接近法2] ii) 有意な共集積形態の抽出 22

0 1/4 1/4 1/2 1/21/2

0 1/2 1/2 1 11

地域4 地域5 地域6地域3地域2地域1

集積産業数

0 1 21 22

<集積発生確率の設定>

集積地域数

4

2

提案手法の適用~使用データの紹介~• 「平成21年経済センサス」

基礎調査に関する 地域メッシュ統計2分の1地域メッシュ(約500m四方)

産業別事業所数データ

全国のメッシュ総数:1,515,129 (湖沼を除く)

事業所のあるメッシュ数:336,646(ゼロ切断データ)

事業所数: 6,009,389[件] (事業内容等が不詳の事業所及び農林漁業を除く)

日本標準産業分類(H19)中分類: 87産業分類を使用する.

23 [接近法1] 産業別の集積地域検出 (FDR=0.01) 24

I60 その他の小売業 E24 金属製品製造業

I60 その他の小売業

D07 総合工事業

産業中分類 集積地域数上位10産業 集積地域数I60 その他の小売業 7,569M76 飲食店 7,563N78 洗濯・理容・美容・浴場業 7,431I58 飲食料品小売業 7,116K69 不動産賃貸業・管理業 5,452P83 医療業 4,423H49 郵便業(信書便事業を含む) 3,682D07 職別工事業(設備工事業を除く) 2,545I57 織物・衣服・身の回り品小売業 2,545D06 総合工事業 2,441

Page 5: 点事象集積検出を応用した 産業共集積形態分析の提案gis.sk.tsukuba.ac.jp/2012-15_GIS-ASA/2014年度/20150307...2015/03/07  · K関数(Ripley, 1976) との類似性あり

μ0 20 4010

km

[接近法2] 産業共集積形態の発見・検定共集積形態候補の探索閾値: min(1産業以上の集積存在地域の0.25%,

共集積形態内最小集積地域数の1%)

候補数: 137,779うち,他の部分集合ではない形態数: 3,338

有意な共集積形態を抽出(999回試行・ FDR=0.01・部分集合が有意でない形態は棄却)

有意な形態数: 22,787うち,他の部分集合ではない形態数: 1,342

25

共集積形態 #1

大宮

吉祥寺

三鷹

横浜

みなとみらい

蒲田

川崎

立川

産業数最多の共集積形態 #1 #2 #3G39 情報サービス業 I57 織物・衣服・身の回り品小売業 I58 飲食料品小売業 I60 その他の小売業 K68 不動産取引業 L72 専門サービス業(他に分類されないもの) L74 技術サービス業(他に分類されないもの) M76飲食店 N78 洗濯・理容・美容・浴場業 N79 その他の生活関連サービス業 O82 その他の教育・学習支援業 P83 医療業 R92 その他の事業サービス業

共集積地域数 247 225 220

おわりに[提案手法の利点] 産業別集積地域検出を通した産業立地データの圧縮により

共集積形態を発見的に探索可能. FDR制御法を用いた集積検出により

• 多重検定問題を回避.• 多地域から各産業の集積地域を短時間に検出.

頻出データマイニング手法を用いることにより多地域・多産業のデータから効率的に共集積形態候補の抽出が可能.

シミュレーションを通して,共集積形態の有意性を評価可能. 既往の産業共集積分析方法では把握できない共集積地域を示すことが可能.

[課題] 大量の産業組み合わせが抽出されるため,結果の解釈が困難.

⇒ 得られた産業間の関係を要約・可視化する手法が不可欠. EG指標と同様に,可変単位地域問題(MAUP)あり.

近隣メッシュの立地も考慮した分析が可能か検討の必要あり.

26

参考文献Agrawal, R. and Srikant, R., 1994. Fast algorithms for mining association rules. In: Proceedings of the 20th

International Conference on Very Large Data Bases (VLDB’94), Santiago, Chile, 487-499.Benjamini, Y. and Hochberg, Y., 1995, Controlling the false discovery rate: a practical and powerful approach to

multiple testing. Journal of the Royal Statistical Society Series B, 57(1):289‒300.Brunsdon, C. and Charlton, M., 2011. An assessment of the effectiveness of multiple hypothesis testing for

geographical anomaly detection. Environment and Planning B: Planning and Design, 38:216‒230.Caldas de Castro M, Singer B, 2006, Controlling the false discovery rate: a new application to account for multiple

and dependent tests in local statistics of spatial association, Geographical Analysis, 38:180‒208.Cressie, N.A.C., 1993. Statistics for Spatial Data. Wiley.Duczmal, L., Kulldorff, M., and Huang, L., 2006. Evaluation of spatial scan statistics for irregularly shaped clusters.

Journal of Computational and Graphical Statistics, 15(2):1‒15.Duranton, G. and Overman, H. G. 2005. Testing for localization using micro-geographic data. The Review of

Economic Studies, 72(4):1077‒1106.Ellison, G. and Glaeser, E. L., 1997. Geographic concentration in U.S. manufacturing industries: A dartboard

approach. Journal of Political Economy, 105(5):889‒927.Ellison, G. and Glaeser, E. L., 1999. The geographic concentration of industry: Does natural advantage explain

agglomeration? The American Economic Review, 89(2):311‒316.Ellison, G., Glaeser, E. L., and Kerr, W. R., 2010. What causes industry agglomeration? Evidence from

coagglomeration patterns. American Economic Review, 100: 1195 ‒ 1213.Han, J., Pei, H., and Yin, Y., 2000. Mining frequent patterns without candidate generation. In: Proceedings of the

2000 ACM SIGMOD international conference on Management of data (SIGMOD’00, Dallas, TX). ACM Press, New York, NY, USA.

Holm, S., 1979, A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6(2):65‒70.

Kulldorff, M., 1997. A spatial scan statistic, Communication Statistic Theory and Method, 26(6):1481‒1496.Mori, T. and Smith, T., 2010, A probabilistic modeling approach to the detection of industrial agglomeration. KIER

Discussion Paper, 777:1‒54.Ripley, B. D., 1976. The second-order analysis of stationary point processes. Journal of Applied Probability, 13(2):

255 ‒ 266.

27