7
DEIM Forum 2015 G1-2 Pk-匿名化手法の精度改良に関する諸検討 柿澤 美穂 渡辺知恵美 †† 古川 ††† 高橋 ††† お茶の水女子大学 112–8610 東京都文京区大塚 2–1–1 †† 筑波大学 305–8573 茨城県つくば市天王台 1–1–1 ††† 日本電気株式会社 211–8666 神奈川県川崎市中原区下沼部 1753 E-mail: [email protected], ††[email protected], †††[email protected], †††[email protected] あらまし ランダム化を用いた匿名化手法の一つに Pk-匿名化がある. 既存の Pk-匿名化は, データ主体を 1/k 以上の確 信度に絞り込めないよう, 元の属性値にラプラス分布に従うノイズを付与することで実現されている. 本稿では, 既存手 法におけるノイズが過剰に付与される点の解決策として, 元の属性値を予め複数のグループに分類してから Pk-匿名化 を実現する手法を提案する. また, ベイズ推定を用いた再構築法を適用し, 攪乱されプライバシが保護された Pk-匿名化 データから統計的に有意なクロス集計結果を得ることができるかを検証する. さらに, 属性値が予めグループに分類さ れたデータにおいても同様に再構築法を適用し, クロス集計結果を比較することで提案手法の優位性を示す. キーワード データベース, プライバシ保護, 匿名化 1. はじめに 近年, データベースサービスの普及に伴い, 個人情報等の機密 情報をデータベースに格納する場合のプライバシ保護が要求さ れている. 特に, データベースに格納された機密情報を公開する , データ公開者はデータベースのレコード所持者をデータ利用 者に特定させずに公開したいと望む. そのような場合にレコー ド所持者を隠すため, データを匿名化する手法が研究されてい . データ匿名化の手法として, k-匿名化 [15] [11], l-多様性 [17], 差分プライバシ [18] 等がある. k-匿名化とは, 属性値の抽象化や 削除を行い, レコード所持者を k 人未満に絞れないようにする 手法である. この k-匿名化を確率的指標に拡張した手法が, Pk- 匿名化 [3] [4] [5] である. Pk-匿名化はノイズ付与といった確率 的な操作を用いて, レコード所持者を 1/k 以上の確信度で絞り 込めないようにする. 既存研究では数値属性に対して, ラプラス 分布に従ったノイズを付与することで Pk-匿名化を実現する方 法が提案されている. しかし, 既存の Pk-匿名化手法には, ノイ ズが過剰に付与されているという課題がある. そこで我々は, 既存の Pk-匿名化手法の一改良法として, 匿名 化前の属性値の類似性を考慮して予め複数のグループに複数の グループに分類してから, グループ毎に Pk-匿名化を施す手法を 提案した [1]. グループに分類することで, ノイズが従うラプラ ス分布の分散を既存手法に比べて小さく抑えることができ, 果として過剰なノイズを抑えることができた. さらに, より効 果的にノイズを抑えるための属性値グループ分類方法として, Mondrian [12] DBSCAN [13] というクラスタリング手法を併 用したグループ分類を行った [2]. 結果, グループから大きく外 れて分布している属性値を外れ値として除外することで, さら にノイズが従うラプラス分布の分散を抑えることが可能である と示した. さらに本稿では, Pk-匿名化により攪乱されプライバ シ保護されたデータが, 統計的に有意なクロス集計結果を得る ことができるかを検証するため, 再構築法 [8] [9] を用いたベイ ズ推定を行い, クロス集計結果の比較を行う. 2. Pk-匿名化 既存の Pk-匿名化は, レコードの数値属性に対し, ラプラス分 布に従ったノイズを付与することで実現する. ここでは,k σ の関係式を以下の様に定義している. σ = 2 sup u,vV ||u v|| 1 log(|R|− 1) log(k 1) (1) σ はラプラス分布の分散を示しており, ラプラス分布の広が り方を示す数値として扱う. 所望の k の値の下で, σ の値を上記 の式で決定する. Pk-匿名化によってどのようにプライバシが保護されるのか , 例を用いて示す. 1 Pk-匿名化の例 ここに, 1 のような, ある病院の患者の氏名, 年齢, 体重, 名が格納されているテーブルがあるとする. このテーブルを, 院のスタッフがデータアナリストに公開し, アナリストは患者 のプロフィールと病気の関係を分析するとする. ここで, 患者の プライバシを保護するため, データを公開する病院スタッフは, 匿名化処理として Pk-匿名性を満たすようなノイズを, レコード

Pk-匿名化手法の精度改良に関する諸検討 - IPSJ DBSMondrian では, レコードの集合に対して分割する次元を決め, その次元の中央値に基づいて各レコードを左右に分類していく

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Pk-匿名化手法の精度改良に関する諸検討 - IPSJ DBSMondrian では, レコードの集合に対して分割する次元を決め, その次元の中央値に基づいて各レコードを左右に分類していく

DEIM Forum 2015 G1-2

Pk-匿名化手法の精度改良に関する諸検討

柿澤 美穂† 渡辺知恵美†† 古川 諒††† 高橋 翼†††

†お茶の水女子大学 〒 112–8610東京都文京区大塚 2–1–1

††筑波大学 〒 305–8573茨城県つくば市天王台 1–1–1

†††日本電気株式会社 〒 211–8666神奈川県川崎市中原区下沼部 1753

E-mail: †[email protected], ††[email protected],

†††[email protected], †††[email protected]

あらまし ランダム化を用いた匿名化手法の一つに Pk-匿名化がある.既存の Pk-匿名化は,データ主体を 1/k以上の確

信度に絞り込めないよう,元の属性値にラプラス分布に従うノイズを付与することで実現されている.本稿では,既存手

法におけるノイズが過剰に付与される点の解決策として,元の属性値を予め複数のグループに分類してから Pk-匿名化

を実現する手法を提案する.また,ベイズ推定を用いた再構築法を適用し,攪乱されプライバシが保護された Pk-匿名化

データから統計的に有意なクロス集計結果を得ることができるかを検証する.さらに,属性値が予めグループに分類さ

れたデータにおいても同様に再構築法を適用し,クロス集計結果を比較することで提案手法の優位性を示す.

キーワード データベース,プライバシ保護,匿名化

1. は じ め に

近年,データベースサービスの普及に伴い,個人情報等の機密

情報をデータベースに格納する場合のプライバシ保護が要求さ

れている. 特に,データベースに格納された機密情報を公開する

際,データ公開者はデータベースのレコード所持者をデータ利用

者に特定させずに公開したいと望む. そのような場合にレコー

ド所持者を隠すため,データを匿名化する手法が研究されてい

る. データ匿名化の手法として, k-匿名化 [15] [11], l-多様性 [17],

差分プライバシ [18]等がある. k-匿名化とは,属性値の抽象化や

削除を行い,レコード所持者を k人未満に絞れないようにする

手法である. この k-匿名化を確率的指標に拡張した手法が, Pk-

匿名化 [3] [4] [5] である. Pk-匿名化はノイズ付与といった確率

的な操作を用いて, レコード所持者を 1/k以上の確信度で絞り

込めないようにする. 既存研究では数値属性に対して,ラプラス

分布に従ったノイズを付与することで Pk-匿名化を実現する方

法が提案されている. しかし, 既存の Pk-匿名化手法には, ノイ

ズが過剰に付与されているという課題がある.

そこで我々は,既存の Pk-匿名化手法の一改良法として,匿名

化前の属性値の類似性を考慮して予め複数のグループに複数の

グループに分類してから,グループ毎に Pk-匿名化を施す手法を

提案した [1]. グループに分類することで,ノイズが従うラプラ

ス分布の分散を既存手法に比べて小さく抑えることができ,結

果として過剰なノイズを抑えることができた. さらに, より効

果的にノイズを抑えるための属性値グループ分類方法として,

Mondrian [12]と DBSCAN [13]というクラスタリング手法を併

用したグループ分類を行った [2]. 結果,グループから大きく外

れて分布している属性値を外れ値として除外することで,さら

にノイズが従うラプラス分布の分散を抑えることが可能である

と示した. さらに本稿では, Pk-匿名化により攪乱されプライバ

シ保護されたデータが,統計的に有意なクロス集計結果を得る

ことができるかを検証するため,再構築法 [8] [9]を用いたベイ

ズ推定を行い,クロス集計結果の比較を行う.

2. Pk-匿名化

既存の Pk-匿名化は,レコードの数値属性に対し,ラプラス分

布に従ったノイズを付与することで実現する. ここでは, kと σ

の関係式を以下の様に定義している.

σ = 2supu,v∈V ||u − v||1

log(|R| − 1) − log(k − 1)(1)

σはラプラス分布の分散を示しており, ラプラス分布の広が

り方を示す数値として扱う. 所望の kの値の下で, σの値を上記

の式で決定する.

Pk-匿名化によってどのようにプライバシが保護されるのか

を,例を用いて示す.

図 1 Pk-匿名化の例

ここに,図 1のような,ある病院の患者の氏名,年齢,体重,病

名が格納されているテーブルがあるとする. このテーブルを,病

院のスタッフがデータアナリストに公開し,アナリストは患者

のプロフィールと病気の関係を分析するとする. ここで,患者の

プライバシを保護するため,データを公開する病院スタッフは,

匿名化処理として Pk-匿名性を満たすようなノイズを,レコード

Page 2: Pk-匿名化手法の精度改良に関する諸検討 - IPSJ DBSMondrian では, レコードの集合に対して分割する次元を決め, その次元の中央値に基づいて各レコードを左右に分類していく

の各数値属性に付与する. そこにある攻撃者がいて, Aliceの年

齢が 13 ,体重が 36.7という数値と,匿名化後のテーブルを知っ

てしまっているとする. この攻撃者は,自身の知っている値から

Aliceのレコードを判別し, Aliceの病気を特定したい. この時,

攻撃者が匿名化前のテーブルを見ると, Aliceの病気が分かって

しまうが,テーブルが匿名化されていると,値が変わっているた

めに Aliceに対応するレコードがどれなのか分からず, Aliceの

病気を特定することができない.

このようにして,レコードの値にノイズを付与し攪乱するこ

とで,プライバシを保護するのが Pk-匿名化である.

3. 既存手法の課題

既存手法の課題として, Pk-匿名化後のデータの有用性は k-匿

名化後のデータより低いことを指摘する. ここでは, k-匿名化

データと Pk-匿名化データの相関係数を比較する実験を行い,匿

名化後の値が元の値の特徴をどれだけ保持して匿名化できてい

るかを検証する. 対象データとして,レコード数 30000 ,相関係

数が 0.5, 1.0であるランダムデータを使用し,結果を以下のグラ

フ (図 2,3)に示す. どちらの結果も k-匿名化データの相関係数

は元データの相関係数と大きく異ならないのに対し, Pk-匿名化

データの相関係数は元データの相関係数から大きく離れている.

このことから, Pk-匿名化データは k-匿名化データよりも匿名化

による値の分布の広がり方が大きく, k-匿名化データに比べて

データ有用性が低いということが言える.

図 2 相関係数 0.5 のデータの相関係数の推移

図 3 相関係数 1.0 のデータの相関係数の推移

4. 属性値のグループ分類を用いた Pk-匿名化

そこで我々は,既存の Pk-匿名化手法の改良法として,元の属

性値を予め複数のグループに分類し,グループ毎に Pk-匿名化を

施す手法を提案する. 前述の式 (1)の分子は,属性値間の最大距

離を表しており,属性値に付与されるノイズのラプラス分布の

分散は,属性値間の最大距離に依存していることが分かる. その

ため,属性値をグループに分類することで最大距離が小さくな

り,ラプラス分布の分散も小さく抑えられ,その結果過剰なノイ

ズ付与を防ぐことができる.

属性値の分類方法として,濃度ベースクラスタリングの一手

法であるMondrianと DBSCANを適用する. 各方法の特徴とグ

ループ分類の結果を説明する.

4. 1 Mondrian

Mondrianでは,レコードの集合に対して分割する次元を決め,

その次元の中央値に基づいて各レコードを左右に分類していく.

この操作を,レコードの集合がこれ以上分割されない状態にな

るまで再帰的に繰り返す. この方法により,近くに分布する属性

値が同じグループに属する結果になり,属性値間の最大距離も

自然と小さくなる.

ここで例として,ある 1000個の属性値を持つサンプルデータ

セットにMondrianを適用し,属性値をグループ分類した結果を

以下の図 4に示す.

図 4 Mondrianによる属性値のグループ分類

図 4のように,全ての属性値がいずれかのグループに属した

分類結果を得る. ここでは, 120~130個の属性値を含むグルー

プが 8個形成された.

4. 2 DBSCAN

DBSCANとは,ある基点から同じクラスタに含めることがで

きる条件を満たす点を推移的にたどっていき,到達可能な点の

極大集合を一つのクラスタとするクラスタリングの一手法であ

る. DBSCANを用いると,大まかないくつかのクラスタに分類

でき,クラスタから大きく離れて分布している属性値を外れ値

としてグループから除外することができる. そのため,外れ値と

して扱われる属性値を含めたグループを Pk-匿名化するよりも,

属性値の最大距離を抑えることができ,結果としてラプラス分

布の分散も小さく抑えることができる.

我々は DBSCANの特性を利用し,属性値集合に DBSCANを

施してからMondrianを適用するというように,二つの手法を併

Page 3: Pk-匿名化手法の精度改良に関する諸検討 - IPSJ DBSMondrian では, レコードの集合に対して分割する次元を決め, その次元の中央値に基づいて各レコードを左右に分類していく

用することで,外れ値を除外したグループ分類を実現できると

考える. なお,外れ値に対しては,ランダムなノイズを付与する,

もしくは存在しない属性値として扱う,という二択を想定して

いる. 有効な方法については今後検討を行っていく.

前節と同様のサンプルデータに対し, DBSCAN と Mondrian

を併用した適用した結果を以下の図 5に示す.

図 5 DBSCANとMondrianによる属性値のグループ分類

140~160個の属性値を含むグループが 6個形成された. 図 4

と比較すると,外れ値が除外されグループに含まれる属性値が

密集していることが分かる.

4. 3 実 験

元の属性値をあらかじめ分類して Pk-匿名化を施すことによ

り,より小さい分散でのノイズ付与を実現することが期待できる

ことを検証するため,前節のサンプルデータに対してMondrian

を適用した場合と, DBSCANと Mondrianを併用して適用した

場合で,グループ毎に Pk-匿名化を施す実験を行う. グループ毎

に k = 5として Pk-匿名化した場合の分散と,既存手法を適用し

た場合の分散を全グループで比較した結果を以下に示す.

まず, Mondrianを適用した場合が以下の図 6である.

図 6 Mondrianを適用した場合

また, Mondrianと DBSCANを併用した場合の結果が以下の

図 7である.

この結果を見ると,グループに分類してから匿名化すること

で,平均して約半分の分散で Pk-匿名化を実現できていることが

分かる. 従って,元の属性値を予めグループに分類してから,グ

ループ毎に Pk-匿名化を施す方法が有用であると言える. さら

に,属性値のグループ分類方法として DBSCANとMondrianを

併用した方が,よりノイズの分散を抑えられることが分かった.

図 7 Mondrianと DBSCANを併用した場合

5. 再構築法による統計情報の抽出

このように値を攪乱することによってプライバシを保護する

Pk-匿名化手法であるが,ノイズが付与され値が変わるために第

三者が匿名化データをそのまま分析や検索に使えないという問

題がある. そこで,プライバシを保護した状態で機密情報から統

計情報のみを抽出したい. 我々は, Pk-匿名化により攪乱されプ

ライバシ保護されたデータが,統計的に有意なクロス集計結果

を得ることができるかを検証するため,ベイズ推定を用いた再

構築法を行い,クロス集計結果の比較を行う.

5. 1 ベイズ推定を用いた再構築法

ここでは,本研究における再構築法に用いる各要素の説明お

よび再構築法の手順を述べる.

5. 1. 1 クロス集計

クロス集計とは,データマイニング手法の中で使用される基

本的な集計法であり,一般的にはアンケート等に利用されてい

る. 我々は,再構築法の実験において一次元かつ連続値の数値属

性を扱うため,連続値を量子化しクロス集計のブロックの幅を

定めて集計する. さらに,クロス集計結果は実験においてベクト

ルとして扱う. 本研究で扱うクロス集計の例は, 以下の図 8 で

表す.

図 8 クロス集計の例

5. 1. 2 ベイズ推定

先行研究では, ベイズ推定を用いてクロス集計を求めてい

る [6] [7]. ベイズ推定とは, ベイズ確率の考え方に基づき, 物事

が起こる確率を最初に仮定し一回の事象によりそれを更新して

正しい確率に推論していく,という手法である. ベイズ推定を反

復して行うことで,漸近的に真の確率を推定する.これは反復ベ

イズ法と呼ばれる. 我々は,匿名化後のクロス集計結果を匿名化

前のクロス集計結果であると仮定し,この反復ベイズ法を利用

Page 4: Pk-匿名化手法の精度改良に関する諸検討 - IPSJ DBSMondrian では, レコードの集合に対して分割する次元を決め, その次元の中央値に基づいて各レコードを左右に分類していく

して匿名化前の正しいクロス集計結果を推論する. その際,クロ

ス集計をベクトルで表し, ベイズ推定前後のベクトルの L1-距

離として絶対値の差の総和をとり,その値が閾値より小さくな

るまで反復する. テーブルが攪乱されても,統計量としては攪乱

アルゴリズムの期待する値に収束することが分かっているため,

この方法が可能となる.

5. 1. 3 再 構 築 法

このように,攪乱されたデータに対するクロス集計結果から,

反復ベイズ推定を用いて真のクロス集計を求め統計値を得る作

業を再構築法と呼ぶ. 直感的には, Pk-匿名化における値の攪乱

と真逆の作業であるとされる.

再構築法の具体的な手順としては,まず Pk-匿名化データから

クロス集計を取得する. そのクロス集計結果に対し,反復ベイズ

法を用いた再構築法によって付与されたノイズを薄めていき,

真のクロス集計結果に近づけていく. クロス集計ベクトルの L1-

距離が収束するまで繰り返す. 本稿で用いる反復ベイズ法によ

る再構築法のアルゴリズムは,以下の通りである [8].

Algorithm 1再構築法Input: A, y⃗

Output: x⃗i

x⃗0 := y⃗

i := 0

while |x⃗i+1 - x⃗i | <= ε do

x⃗i+1 := x⃗i · (A(⃗y/(x⃗iA))t)t

i := i+1

end while

5. 1. 4 遷移確率行列

アルゴリズム中の行列 Aは, 遷移確率行列である. 属性値が

Pk-匿名化されてクロス集計のブロック間を遷移する確率は,遷

移確率行列によって表される. 先行研究では,離散データに対し

維持置換攪乱 [10]という攪乱手法を用いて Pk-匿名化を行って

いる場合を対象としている. 維持置換攪乱において,属性値は維

持確率によって本来の属性値を維持し, 維持しないときは一様

にランダムな値に変わる. このとき,属性 aの遷移確率行列 Aa

は以下の様に定義されている.

(Aa)kl =

ρa +(1−ρa)

Na  (k = lのとき)

(1−ρa)Na

(k , lのとき)(2)

ρa は維持確率を表し, Na は属性 Aa の属性値の種類数を表す.

我々は,本研究では連続値である数値属性を対象としており,且

つラプラス分布に基づいて Pk-匿名化されたデータを対象にし

ている. 上記の遷移確率行列では, 維持されなかった属性値は

一様分布でランダムな値となることから,この場合に適さない.

そこで,ある属性値が同じクロス集計のブロックの中で遷移す

る確率と,異なるクロス集計のブロックに遷移する確率を要素

として遷移確率行列を定義する. Pk-匿名化ではラプラス分布に

従ってノイズが付与されていることから,属性値が遷移する確

率はラプラス分布の面積として計算できる. ラプラス分布の確

率密度関数は以下の式である.

f (x) =1

2σexp(− |x − µ|

σ)

遷移確率行列の要素を二種類に分け,以下の様に定義する.

まず,同じブロックに遷移する確率を Aa,a とする. ラプラス分

布の面積を用いて算出する概略図が以下の図 9である.

図 9 Aa,a を示す図

Aa,a =1w

∫ w

0

∫ w

0

12σ

exp(− |x′ − x|σ

)dx′dx

= ...

= 1 +σ

w(exp(

−wσ

) − 1)

次に, i個隣のブロックに遷移する確率を Aa,a±i とする. ラプ

ラス分布の面積を用いて算出する概略図が以下の図 10である.

図 10 Aa,a を示す図

Aa,a±i =1w

∫ w

0

∫ (i+1)w

iw

12σ

exp(− |x′ − x|σ

)dx′dx

= ...

2wexp(−wσ

(i − 1))(exp(−wσ

) − 1)2

ただし,

• w : クロス集計のブロック幅

• σ : ラプラス分布の分散

Pk-匿名化により定義域をはみ出して遷移する属性値も,全て

同じ幅のブロックに集計されることとする. 従って,匿名化後の

値の最小値と最大値によって, クロス集計結果のブロック総数

は変化する. この時,定義域に収まらないブロックに遷移する確

Page 5: Pk-匿名化手法の精度改良に関する諸検討 - IPSJ DBSMondrian では, レコードの集合に対して分割する次元を決め, その次元の中央値に基づいて各レコードを左右に分類していく

率は,維持されるブロックから i個隣に遷移する確率と同様に表

す. 元のデータと同じブロックに遷移する確率が対角に位置さ

れ,そのブロックから i個隣に遷移する確率である遷移確率が左

右対称に位置される.

例として,総ブロック数が 6の場合の遷移確率行列は,以下の

ようになる.

A =

Aa,a Aa,a+1 Aa,a+2 Aa,a+3 Aa,a+4 Aa,a+5

Aa,a−1 Aa,a Aa,a+1 Aa,a+2 Aa,a+3 Aa,a+4

Aa,a−2 Aa,a−1 Aa,a Aa,a+1 Aa,a+2 Aa,a+3

Aa,a−3 Aa,a−2 Aa,a−1 Aa,a Aa,a+1 Aa,a+2

Aa,a−4 Aa,a−3 Aa,a−2 Aa,a−1 Aa,a Aa,a+1

Aa,a−5 Aa,a−4 Aa,a−3 Aa,a−2 Aa,a−1 Aa,a

遷移確率行列において, 元のデータが存在しなかったブロッ

クから属性値が遷移する確率で表す. 遷移確率行列の要素とな

る確率は,元の値の存在確率の下でその値が他のブロックに遷

移するという条件付き確率であり,元の値の存在確率があるの

で 0にはならず,他のブロックの遷移確率と同様の数値になる

と考えられるためである.

本研究では,上記の遷移確率行列を用いて再構築法を適用し,

Pk-匿名化されたデータからプライバシを保護された状態で有

意な統計情報が取得できることを検証する.

5. 2 グループ毎に Pk-匿名化した場合の再構築法

ここで, 我々が提案した属性値のグループ分類を用いた場合

の再構築の方法について述べる.

まず属性値を複数のグループに分類してグループ毎に Pk-匿

名化を行い,それぞれの匿名化データからクロス集計結果を算

出する. 各クロス集計結果を,ブロック幅の定義域を合わせて足

し合わせ, 1つのクロス集計結果とする. そのクロス集計結果に

対し,遷移確率行列を用いてベイズ推定を適用する. グループ毎

でラプラス分布の分散が異なるので,各グループに属するブロッ

クに対応する行には前述の維持確率と遷移確率を用い,グルー

プに属さないブロックに対応する行には,維持確率を 1 ,遷移確

率を 0としておく.

例として,以下の図 11のようなクロス集計のブロック構成を

持ち, 2グループに分類がなされている一次元のデータがあると

する.

図 11 例:グループ分類を持つ一次元データ

A グループの維持確率を Aa,a, 遷移確率を Aa,a±i, B グループ

の維持確率を Ba,a,遷移確率を Ba,a±i とする. このような場合の

遷移確率行列は,以下の様に表される.

A =

1 0 0 0 0 0

Aa,a−1 Aa,a Aa,a+1 Aa,a+2 Aa,a+3 Aa,a+4

0 0 1 0 0 0

Ba,a−3 Ba,a−2 Ba,a−1 Ba,a Ba,a+1 Ba,a+2

Ba,a−4 Ba,a−3 Ba,a−2 Ba,a−1 Ba,a Ba,a+1

0 0 0 0 0 1

この遷移確率行列を用いて,データ全体に対し Pk-匿名化をし

た場合と同様にベイズ推定を用いた再構築法を施し,匿名化前

のクロス集計結果を推論する.

5. 3 検 証 実 験

ここでは,あるサンプルデータを用意し, Pk-匿名化されたデー

タからクロス集計を抽出し,ベイズ推定を用いた再構築法を施

す. そして,元データから抽出したクロス集計結果と匿名化後の

データから抽出したクロス集計結果,再構築法適用後のクロス

集計結果を比較する. 実験の目的は,再構築法を適用することで

統計的に有意なクロス集計結果を得られることを検証すること

である.

サンプルデータとして,定義域 [10, 90]の 200個のレコードを

持つデータセットを用意し, k = 2として Pk-匿名化しベイズ推

定を適用する.これをデータ Pと呼ぶ. クロス集計幅は 20とし,

各レコードはクロス集計幅の値域に該当する 4つのブロックに

分類される.

ランダムノイズを付与する Pk-匿名化の結果によってベイズ

推定の結果も異なるので,データ Pに Pk-匿名化を施し,その結

果にベイズ推定をする,という実験を 5回試行し,各 L1-距離の

平均をとった. 結果は以下の図 12の通りである. この時,ラプラ

ス分布の分散である σは, k = 2より計算し 30である.

図 12 各回のクロス集計の L1-距離の比較

L1-距離が大きく縮まる訳ではないが,ベイズ推定を施した場

合の方が, Pk-匿名化データよりも元データに統計的に近い結果

が得られていることが分かる. Pk-匿名化データのクロス集計結

果の L1-距離と,ベイズ推定後のクロス集計の L1-距離の差の平

均はおよそ 26.8小さくなるという結果になった.

従って,ベイズ推定を適用することで,プライバシを保護しつ

つ元データのクロス集計に近い結果を出すことができ, Pk-匿名

化データよりも統計的に有意な結果を得ることができることが

示された.

Page 6: Pk-匿名化手法の精度改良に関する諸検討 - IPSJ DBSMondrian では, レコードの集合に対して分割する次元を決め, その次元の中央値に基づいて各レコードを左右に分類していく

5. 4 属性値のグループ分類を用いた場合の検証実験

ここで,我々が提案した属性値のグループ分類を用いた Pk-匿

名化を適用した場合に, Pk-匿名化データのクロス集計結果を再

構築するとどのような結果になるかを検証する.

まず, 先ほどのサンプルデータの中から, 定義域 [10, 30] と

[50, 90] に含まれる値を抽出し, 2 つのグループに分類された

データとする.これをデータ Qと呼ぶ. 定義域 [10, 30]に含まれ

る値を Aグループ,定義域 [50, 90]に含まれる値を Bグループ

とする. Aグループには 45個, Bグループには 102個の値が含

まれている.

このデータ Qに対し,データ全体をまとめて Pk-匿名化し,匿

名化データから得たクロス集計結果に再構築法を施す,という

手順を 5回繰り返し,元データのクロス集計結果と再構築法適

用後のクロス集計結果の L1-距離の平均値を算出する. 元のデー

タのクロス集計結果と, Pk-匿名化データを集計したクロス集計

との L1-距離と比較し, Pk-匿名化後のデータより統計的に有意

なデータを得られることを示す.

5. 4. 1 データ全体に Pk-匿名化した場合

まず,データ Q全体に対し k = 2として Pk-匿名化した場合,

Pk-匿名化データのクロス集計結果と元データのクロス集計結

果との L1-距離,ベイズ推定適用後のクロス集計結果と元データ

のクロス集計結果との L1-距離を比較したものが,以下の図 13

である.

図 13 データ全体を匿名化した場合の各クロス集計の L1-距離の比較

L1-距離が極端に小さくなる時とならない時の差はあるが,平

均をとると再構築法にて得たクロス集計結果の方が,Pk-匿名化

データから抽出した統計情報より元データの統計情報に近い結

果を得られていることが分かる. 各回の L1-距離の差の平均は

およそ 42小さくなる,という結果であった.

5. 4. 2 グループに分類してから Pk-匿名化した場合

属性値を 2グループに分類し,グループ毎に Pk-匿名化した場

合にも同様の実験を行う.

k = 2として Pk-匿名化した場合の結果は, 以下の図 14 よう

になる.

この場合も,ベイズ推定を用いた場合の方がプライバシを保

護した状態で,統計的に有意な結果を得られることが分かる. 各

L1-距離の差の平均はおよそ 49小さくなる,という結果であり,

僅差ではあるがグループ分類を用いた場合の方がより元データ

の統計情報に近い結果が得られることが分かる.

図 14 グループ分類して匿名化した場合の各クロス集計の L1-距離の

比較

ただし, 結果にも見られるように, Pk-匿名化手法のランダム

なノイズにより,ベイズ推定後に測った L1-距離が大きく縮まる

ときもあれば, Pk-匿名化データのクロス集計結果との L1-距離

より大きくなってしまう場合もある. そのような場合の特徴と

しては,元のデータの値が存在しないブロックに Pk-匿名化され

た値が多く入っていることが挙げられる. この時,反復ベイズ推

定を施した際に特定のブロックに分布が偏り, L1-距離が小さく

ならないという傾向が見られた. このように, Pk-匿名化のよう

なランダムな結果に対して安定して統計的に有意な結果を得ら

れることができる手法を,今後検討していきたい.

6. まとめと今後の課題

Pk-匿名化手法における過剰なノイズ付与を防ぐため,元の属

性値を予め複数のグループへ分類してからグループ毎に Pk-匿

名化を施すという一改良法を提案した. この手法により, ノイ

ズが従うラプラス分布の分散を小さく抑えることができ,結果

として過剰なノイズを抑えて Pk-匿名化を実現することが可能

になった. また,属性値のグループ分類方法として, Mondrainと

DBSCANという濃度ベースクラスタリングの手法を用いた. 二

手法を併用することにより,外れ値を除去したグループ分類方

法が可能となり,さらなる過剰ノイズの付与を抑えられること

を示した. また, Pk-匿名化後のデータに対してベイズ推定を用

いた再構築法を施すことにより,匿名化後のデータからも統計

的に有用なデータを取得することが可能であることを示した.

今後の課題として,実際の大規模機密データへの提案手法の

適用実験,属性値の密度を考慮したグループ分類方法の提案等

が挙げられる.

文 献

[1] Miho Kakizawa, Chiemi Watanabe, Ryo Furukawa, Tsubasa Taka-hashi, ”Improvement of Pk-anonymization”, FTSIS2014, 2014

[2] 柿澤美穂,渡辺知恵美,古川諒,高橋翼, ”属性値のグループ分類を用いた Pk-匿名化手法の検討”, CSS2014, 2014

[3] 五十嵐大,千田浩司,高橋克巳, ”k-匿名性の確率的指標への拡張とその適用例”, CSS2009, 2009

[4] 五十嵐大, 千田浩司, 高橋克巳, ”数値属性における,k-匿名性を満たすランダム化手法”, CSS2011, 2011

[5] 五十嵐大, 千田浩司, 高橋克巳, ”ランダム化データベース上のk-匿名性の一般的算出法”, CSS2011, 2011

Page 7: Pk-匿名化手法の精度改良に関する諸検討 - IPSJ DBSMondrian では, レコードの集合に対して分割する次元を決め, その次元の中央値に基づいて各レコードを左右に分類していく

[6] 五十嵐大,長谷川聡,納竜也,菊池亮,千田浩司, ”数値属性に適用可能な,ランダム化により k-匿名性を保証するプライバシー保護クロス集計”, CSS2012, 2012

[7] 五十嵐大,千田浩司,高橋克巳, ”多値属性に適用可能な効率的プライバシー保護クロス集計”, CSS2008, 2008

[8] 永井彰,五十嵐大,濱田浩気,松林達史,”クロネッカー積を含む行列積演算の最適化による効率的なプライバシー保護データ公

開技術”, SCIS2010, 2010[9] 五十嵐大,永井彰,松林達史,”再構築法を用いたプライバシー保

護データ分析”, CSS2009, 2009[10] 菊池亮,五十嵐大, 千田浩司, 濱田浩気,”属性値を保持する際に

効率的な攪乱・再構築法”, CSS2011, 2011[11] 千田浩司,木村映善,五十嵐大,濱田浩気,菊池亮,石原謙, ”集

合匿名化データの多変量解析評価”, CSS2012, 2012[12] Kristen LeFevre, David J. DeWitt, Raghu Ramakrishnan, ”Mondrian

Multidimensional K-Anonymity,” ICDE, 2006[13] Martin Ester, Hans-Peter Kriegel, Jorg Sander, Xiaowei Xu, ”A

Density-Based Algorithm for Discovering Clusters in Large SpatialDatabases with Noise”, KDD-96, 1996

[14] J. Li, ”Preservation of proximity privacy in publishing numerical sen-sitive data”, SIGMOD2008, 2008

[15] L. Sweeney. ”k-anonymity: a model for protecting privacy”, Interna-tional Journal on Uncertainty, Fuzziness and Knowledge-based Sys-tems,10(5), pp.555-570, 2002.

[16] R. Agrawal and R. Srikant. Privacy-preserving data mining. Proc. ofthe 2000 ACM SIGMOD Intl. Conf. on Management of Data, 2000

[17] Ashwin Machanavajjhala, Johannes Gehrke, Daniel Kifer, ”l-Diversity: Privacy Beyond k-Anonymity,” TKDD, Volume 1, Issue1, Article No.3, ACM, 2007

[18] Cynthia Dwork, ”Automata, Languages and Programming LectureNotes in Computer Science Volume 4052,” Differential Privacy, pp1-12, 2006

[19] Kristen LeFevre, David J. DeWitt, Raghu Ramakrishnan, ”Incognito:Efficient Full-Domain K-Anonymity,” SIGMOD2005, 2005

[20] ”BigData Startups”(http://www.bigdata-startups.com/public-data/)