21
高部 総務省統計局 山下智志 統計数理研究所 多項ロジットモデルを 用いた 新た な統計的マッチング 手法 提案 2017年度統計関連学会連合大会

多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

高部 勲 総務省統計局山下智志 統計数理研究所

多項ロジットモデルを用いた新たな統計的マッチング手法の提案

2017年度統計関連学会連合大会

Page 2: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

本日の発表内容

1.研究の概要

2.提案手法

3.データ

4.結果と考察

5.今後の課題と対応

1

Page 3: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

2

1.研究の概要

2.提案手法

3.データ

4.結果と考察

5.考察と今後の課題

Page 4: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

統計的マッチングの概要

3

複数のデータベースを、レコード単位で結合することで豊富な情報を持つデータベースを構築する方法。

新たな調査やデータ収集を行うことなく情報量を増大することが可能。

個体を識別できる照合キー(名称、所在地等)が利用できない場合、「距離関数」を定義し、最も近いレコードをマッチング。

Page 5: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

• 統計的マッチングでは「ウエイト付き距離関数」が用いられることが多い。(D‘Orazio et al. (2006))

𝑑𝑑𝑖𝑖𝑖𝑖 = �𝑘𝑘=1

𝑝𝑝

𝜷𝜷𝒌𝒌 𝑋𝑋𝑖𝑖𝑘𝑘 − 𝑋𝑋𝑖𝑖𝑘𝑘𝑑𝑑𝑖𝑖𝑖𝑖:レコード 𝑖𝑖 と 𝑗𝑗 の距離

𝑋𝑋𝑖𝑖𝑘𝑘:レコード 𝑖𝑖 の第 𝑘𝑘 フィールド(項目)の値

𝜷𝜷𝒌𝒌:第 𝑘𝑘 フィールド(項目)のウエイト

課題: 各項目のウエイト(𝜷𝜷𝟏𝟏,𝜷𝜷𝟐𝟐⋯ ,𝜷𝜷𝒑𝒑)を合理的な方法

で決定したい。 データのマッチングの精度を確率の形で定量的

に評価したい。

統計的マッチング:課題

【ウエイト付き距離関数の例】

4

Page 6: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

本研究では、

多項ロジットモデルを応用した、新たな統計的マッチングの手法を提案。

提案手法を、企業のデータベースのマッチングに適用し、従来の手法等の結果と比較。

本研究の概要

提案手法により、

各項目のウエイトを統計学的な方法で推定することが可能。

マッチングの一致確率を推定することが可能。

5

Page 7: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

6

1.研究の概要

2.提案手法

3.データ

4.結果と考察

5.考察と今後の課題

Page 8: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

多項ロジットモデル

𝑃𝑃𝑡𝑡𝑡𝑡𝑡𝑡𝑖𝑖𝑡𝑡𝑃𝑃𝑏𝑏𝑏𝑏𝑏𝑏

𝑃𝑃𝑐𝑐𝑡𝑡𝑡𝑡

𝑃𝑃𝑡𝑡𝑖𝑖𝑡𝑡𝑝𝑝𝑎𝑎𝑡𝑡𝑡𝑡𝑎𝑎

𝑃𝑃𝑤𝑤𝑡𝑡𝑎𝑎𝑘𝑘

𝑃𝑃𝑖𝑖 =𝑒𝑒𝑒𝑒𝑒𝑒 𝑈𝑈𝑖𝑖

∑𝑖𝑖 𝑒𝑒𝑒𝑒𝑒𝑒 𝑈𝑈𝑖𝑖

【交通機関等の選択問題の例 】

𝑈𝑈𝑖𝑖 = 𝛽𝛽1𝑋𝑋𝑖𝑖, + 𝛽𝛽2𝑋𝑋𝑖𝑖,所要時間 費用・運賃

選択主体

複数の選択肢から選択対象を確率的に決定するモデル。

交通機関等の選択の分析などに利用。

選択肢(交通手段)

7

選択確率 各選択の効用

Page 9: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

多項ロジットモデルに基づく統計的マッチング

選択主体(マッチング「元」レコード(企業 𝑖𝑖 ))

選択肢(マッチング「先」レコード(企業 𝑗𝑗 ))

多項ロジットモデルの枠組みを統計的マッチングに適用

𝑃𝑃𝑖𝑖=𝑖𝑖 =𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖

∑𝑖𝑖=1𝑁𝑁 𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖

マッチング確率レコード(企業)間の距離

𝐷𝐷𝑖𝑖𝑖𝑖 = 𝛽𝛽1 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + 𝛽𝛽2 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + ⋯資本金 資本金 従業者数 従業者数

8…

Page 10: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

距離計算のイメージ

帝国データバンク【マッチング元】𝑖𝑖 TDB企業1 TDB企業2 … TDB企業M

経済セン

サス【

マッチ

ング

先】𝑗𝑗 EC企業1 dist(1, 1) dist(1, 2) dist(1, M)

EC企業2 dist(2, 1) dist(2, 2) … 距離(2, M)

EC企業N dist(N, 1) dist(N, 2) … dist(N, M)

9

【選択主体】

【選択主体】

Page 11: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

パラメータ(ウエイト)の推定

• パラメータ (距離関数のウエイト:𝜷𝜷𝟏𝟏,𝜷𝜷𝟐𝟐,⋯ ,𝜷𝜷𝒑𝒑 ) は、

以下の尤度関数に基づく最尤法により推定。

𝑃𝑃𝑖𝑖𝑖𝑖 =𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖

∑𝑖𝑖=1𝑁𝑁 𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖

𝐿𝐿𝐿𝐿 = 𝑙𝑙𝑙𝑙𝑙𝑙 �𝑖𝑖,𝑖𝑖

𝑃𝑃𝑖𝑖𝑖𝑖𝛿𝛿𝑖𝑖𝑖𝑖 = �𝑖𝑖,𝑖𝑖

𝛿𝛿𝑖𝑖𝑖𝑖 𝑙𝑙𝑙𝑙𝑙𝑙 𝑃𝑃𝑖𝑖𝑖𝑖

𝐷𝐷𝑖𝑖𝑖𝑖 = 𝜷𝜷𝟏𝟏 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + 𝜷𝜷𝟐𝟐 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + ⋯

ウエイトを統計的に推定することが可能。

( argmin𝜷𝜷𝟏𝟏,𝜷𝜷𝟐𝟐,⋯,𝜷𝜷𝒑𝒑

𝐿𝐿𝐿𝐿)

資本金 従業者数資本金 従業者数

10

Page 12: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

1.研究の概要

2.提案手法

3.データ

4.結果と考察

5.考察と今後の課題

11

Page 13: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

分析に用いたデータ マッチング元:

「帝国データバンク」データ(平成24年2月分)(※「COSMOSⅡ」企業概要ファイル・レイアウトC)

マッチング先:

「平成24年経済センサス‐活動調査」ミクロデータ(※ 統計法第33条による二次的利用の制度に基づき提供を受けたもの)

【分析用データの作成】

一部地域の中小企業のレコード(約1万3,000件)をキー情報により照合し、統合データセットを作成。

上記の統合データセットから学習用及びテスト用データセットをそれぞれ1/3ずつ抽出。

12

Page 14: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

分析に用いる変数• 連続変数:「従業員数」「資本金額」「売上高」

⇒共通の値(1000, 10000など)で割ってスケーリング。

• カテゴリ変数:以下の変数を使用。

⇒一致( )・不一致( )をダミー変数として設定。

「開設年」 - 1984 1984 - 1994 1995 - 2004 2005 -

「産業」

日本標準産業分類・大分類

「地域」

県内の市・群

13

= 1 = 0

Page 15: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

1.研究の概要

2.提案手法

3.データ

4.結果と考察

5.考察と今後の課題

14

Page 16: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

結果の評価• マッチング確率が「上位●件」のマッチング先に正解

レコードが入っている割合により精度を評価。

(「●」は、1~50の範囲で動かす)

• 複数の距離関数の結果を比較。

(1) ウエイト付き絶対値距離:

(2) ウエイト付き絶対値距離(対数変換):

(3) ウエイト付きキャンベラ距離:

(4) 最近隣法(Nearest Neighbor Method)((1)のウエイトを1に固定)

• 学習用・テスト用データセットの抽出率を変化させた

場合の結果についても分析(1/1, 1/3, 1/5, 1/10)

15

�𝑘𝑘=1

𝑝𝑝𝛽𝛽𝑘𝑘 𝑒𝑒𝑖𝑖𝑘𝑘 − 𝑒𝑒𝑖𝑖𝑘𝑘

�𝑘𝑘=1

𝑝𝑝𝛽𝛽𝑘𝑘 �𝑒𝑒𝑖𝑖𝑘𝑘 − 𝑒𝑒𝑖𝑖𝑘𝑘 𝒙𝒙𝒊𝒊𝒌𝒌 + 𝒙𝒙𝒋𝒋𝒌𝒌 + 𝟏𝟏

�𝑘𝑘=1

𝑝𝑝𝛽𝛽𝑘𝑘𝒍𝒍𝒍𝒍𝒍𝒍 𝑒𝑒𝑖𝑖𝑘𝑘 − 𝑒𝑒𝑖𝑖𝑘𝑘

Page 17: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

パラメータの推定結果マッチング先レコード数: 4552マッチング元レコード数: 2028

従業員数 -166.2579 *** -1.0285 *** -3.5807 ***(9.7439) (0.0465) (0.1561)

資本金額 -5031.9362 *** -0.8368 *** -14.0118 ***(155.9918) (0.0219) (0.4588)

売上高 -78.0490 *** -0.9604 *** -3.6303 ***(3.3216) (0.0222) (0.1085)

同一産業ダミー 3.5798 *** 3.4930 *** 3.4752 ***(0.0787) (0.0830) (0.0784)

同一開設年ダミー 1.5952 *** 1.5880 *** 1.5696 ***(0.0563) 0.0634 (0.0582)

同一地域ダミー 13.8171 * 9.4022 *** 9.4503 ***(4.6746) (0.7093) (0.7087)

対数尤度(L0)※ -17453 -17453 -17453対数尤度(LL) -5438 -3898 -4716疑似決定係数 0.6884 0.7766 0.7298修正疑似決定係数 0.6881 0.7763 0.7294※全てのパラメータ=0として推定

絶対値距離(ウエイト付き)(対数変換なし)

絶対値距離(ウエイト付き)(対数変換あり)

キャンベラ距離(ウエイト付き)(対数変換なし)

16

Page 18: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

正解率の比較(手法の違い)

17

Page 19: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

正解率の比較(抽出率の違い)

18

※絶対値距離(ウエイト付き・対数変換あり)を使用

Page 20: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

1.研究の概要

2.提案手法

3.データ

4.結果

5.考察と今後の課題

19

Page 21: 多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

考察と今後の課題• 提案手法による正解率は、最近隣法等と比較してより良好

なパフォーマンスを示している。

• 上位の順位における正解レコードの割合を高めていくため

には、マッチング対象の検索等に更なる工夫が必要。

• データベースの容量(レコード数)が増加した場合、

距離計算の対象となるレコードのペアの件数が著しく増加

するため、現実的な時間での計算が困難。

⇒主成分分析等により層化を行い、近隣の層のみを計算の

対象とすることで計算量を削減する方法を

検討・試算中。

⇒⇒マッチングの精度を落とさない層化の方法が課題。⇒⇒適切な層化・分割により、精度向上の可能性。

20