76
フィッシャー計量と ワッサースタイン計量 2020年6⽉10⽇ わかみず会 岡野 豊明

フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

フィッシャー計量とワッサースタイン計量

2020年6⽉10⽇わかみず会岡野 豊明

Page 2: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

参考⽂献(1)• ⽢利俊⼀,⻑岡浩司,「情報幾何の⽅法」 (岩波講座 応⽤

数学[対象12])岩波オンデマンドブックス (2017)• 藤原彰夫,「情報幾何学の基礎」数理情報科学シリーズ29

牧野書店 (2015)• ⽢利俊⼀,「情報幾何学の新展開」 数理科学SGCライブラリ

110 サイエンス社 (2014)• Nihat Ay, Jürgen Jost, Hông Vân Lê, Lorenz Schwachhöfer

“Information Geometry”, Springer (2017)• Ovidiu Calin, Constantin Udrişte “Geometric Modeling in

Probability and Statistics”, Springer (2014)

Page 3: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

参考⽂献(2)• Frank Nielsen and Rajendra Bhatia Editors, “Matrix

Information Geometry”, Springer (2013)• Cédric Villani, “Topics in Optimal Transportation”, American

Mathematical Society (2003)• Filippo Santambrogio, “Optimal Transport for Applied

Mathematicians”, Birkhäuser (2015)• Luigi Ambrosio, Nicola Gigli, Giuseppe Savaré, “Gradient

Flows”, Birkhäuser (2005)• L.A. Caffarelli, S.Salsa Editors, “Optimal Transportation and

Applications”, Springer (2003)

Page 4: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

参考⽂献(3)• R. Tyrrell Rockafeller, “Convex Analysis”, Princeton

Landmarks in Mathematics (1997)• Ivar Ekeland and Roger Témam, “Convex Analysis and

Variational Problems”, SIAM CLASSICS (1999)• 今野浩,「線形計画法」⽇科技連 (1987)• George B. Dantzig, “Linear Programming and Extensions”,

Princeton Landmarks in Mathematics (1998)• David G. Luenberger, “Linear and Nonlinear Programming”,

Addison-Wesley Pub. (1989)

Page 5: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

参考⽂献(4)• 坂元慶⾏,⽯⿊真⽊夫,北川源四郎,「情報量統計学」

共⽴出版 (2001)• Shun-ichi Amari, Hiroshi Nagaoka, “Methods of Information

Geometry”, American Mathematical Society (2007)• Yann Olliver, Hervé Pajot and Cédric Villani, “Optimal

Transportation : Theory and Applications”, London Mathematical Society (2014)

• Cédric Villani, “Optimal Transport, old and new”, Springer (2009)

Page 6: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Mean ( Barycenter, Centroid )ユークリッド空間 𝑅 の複数個の点 𝑄 𝑞 , 𝑞 , ⋯ , 𝑞 の平均は,距離の⼆乗和の最⼩値である.

∑ 𝑞 min∈

∑ 𝑑 𝑞, 𝑞 min∈

∑ 𝑞 𝑞 1

(証明)𝐿 ∑ 𝑞 𝑞 ∑ 𝑞 𝑞 , 𝑞 𝑞 とおくと𝛻 𝐿 2 ∑ 𝑞 𝑞 0 から

𝑞 ∑ 𝑞 2

Page 7: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Spherical Mean• n次元球⾯ 𝑆 ⊂ 𝑅 上の点群 𝑄 𝑞 , 𝑞 , ⋯ , 𝑞 の平均を考

える.ここで,𝑆 𝑥 , ⋯ , 𝑥 𝜖𝑅 ∶ 𝑥 ⋯ 𝑥 1

• (2)式の算術平均は,⼀般に 𝑆 上にはのらないので,(1)式の距離 𝑑 𝑞, 𝑞 として,測地線距離(⼤円の弧の⻑さ)をとり,

Φ 𝑞 ∑ 𝑑 𝑞, 𝑞 3を最⼩化することを考える.

• 𝑆 においては𝑑 𝑞, 𝑞 Arccos 𝑞, 𝑞

Page 8: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Solution of Spherical Mean• 解が 𝑆 上に制約されている制約条件付きの最⼩化問題なので,

ラグランジュ未定係数を⽤いた下式の最⼩化を考える.Φ 𝑞 λ 𝑞 1 ∑ Arccos 𝑞, 𝑞 + λ 𝑞 1

• 上式右辺を 𝑞 で微分して0とおくと 2 ∑ ,

,𝑞 𝜆𝑞 0

𝑞 1 を⽤いると,𝜆 ∑ ,,

𝑞, 𝑞 ,従って

∑ ,,

𝑞 𝑞 𝑞, 𝑞 0 4

Page 9: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

計算例 1• 左の図は Mathematica によ

る計算例である.• 10 個の⻘⾊の点の平均が緑⾊

の点である.• Mathematica では,(3)式の

最⼩化を直接的に⾏うことができる.(NMinimize)

• 緑⾊の点が式(4)を満たすことを確認した.

Page 10: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

モスクと測地線⼤円が地球上の最短経路になることから奇妙なことが⽣じることがある.イスラム教では,「あなた⽅はどこに⾏っても,顔を聖なるモスク「メッカのキブラ」)に向けて祈りなさい」と指⽰している。1953年にワシントンD.C.で建築されたモスクは北から東に56度33分の⽅向に祈るようになっている.町のイスラム教徒はなぜその⽅向にモスクが向いているのか理解できなかった.メッカは南側にあるのに!

W.D.CMakkah

Page 11: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

正規分布空間• ある共通テストの各都道府県ごとの平均点と標準偏差が得られ

たとする.全国平均の(平均,標準偏差)はそれぞれの算術平均でよいであろうか?

• テストの点数は正規分布をなすと考えられるので,正規分布を集めた空間を考え,その中での平均を考える必要がある.

• 平均 𝜇 ,標準偏差 𝜎 の正規分布を上半平⾯ 𝑆 𝜇, 𝜎 ∶∞ 𝜇 ∞ , 𝜎 0 の点として表す.確率密度関数は

𝑝 𝑥, 𝜇, 𝜎 exp

Page 12: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

分布間の距離(1)• 標準偏差σが⼩さいところでは分布

はシャープで,平均μが少し違えば分布は⼤きく分離するから,分布間の距離は離れているとみなすことができる(左図A,B).

• これに対して,σの⼤きいところではμが少し違っていても分布は⼤幅に重なっている.この場合,μが同じだけ違っていても分布間の距離は近いというべきである.

• 従って,正規分布の空間は⾮ユークリッド的である.

(A) (B)

(C) (D)

C : (0,2) D : (2,2)A : (0,1) B : (2,1)

Page 13: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

分布間の距離(2)• 前スライドと同様に,

標準偏差が⼩さい場合には確率密度関数の差が⼤きくなるので,AB間の差はCD間の差より⼤きい.

• 左図からも正規分布の空間は⾮ユークリッド的であることがわかる.

Page 14: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

リーマン計量• 確率分布の空間の各点に,⻑さを測る基礎となる計量テンソル

(正定値の⾏列)𝑔 を導⼊する.すなわち,確率分布 𝑝 𝑥, 𝜃 と 𝑝 𝑥, 𝜃 𝑑𝜃 の間の距離 𝑑𝑠 の⼆乗を2次形式リーマン計量

𝑑𝑠 ∑ 𝑔 𝑑𝜃 𝑑𝜃,で与える.

• 確率分布を集めた空間には,どのような基準で計量 𝑔 を導⼊すべきであろうか?インドの統計学者 C. R. Rao は1945年23歳のときの記念碑的な論⽂で,フィッシャーの情報⾏列をもとに計量を定義すべきことを主張した.

Page 15: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

統計的モデル• 集合𝒳 𝑅 または離散集合 上の確率分布族 𝑆 の各要素である

確率分布が 𝑛 個の実パラメータ 𝜃 , ⋯ , 𝜃 を⽤いて次の形に書けるとき,𝑆 を 𝒳 上の 𝑛 次元統計的モデル,パラメトリック・モデル,あるいは単にモデルと呼ぶ.

𝑆 𝑝 𝑝 𝑥, 𝜃 | 𝜃 𝜃 , ⋯ , 𝜃 ∈ Θ ただし, Θ は 𝑅 の部分集合で,対応 𝜃 → 𝑝 は⼀対⼀とする.

• 密度関数 𝑝 𝑥, 𝜃 は,任意の 𝜃 に対して,以下の条件を満たすものとする.

𝑝 𝑥, 𝜃 ∶ 𝒳 → 𝑅 𝑝 𝑥, 𝜃 0 ∀𝑥 ∈ 𝒳 , 𝑝 𝑥, 𝜃 𝑑𝑥 1

Page 16: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

統計的モデルの例(1) 正規分布

𝒳 𝑅 , 𝑛 2 , 𝜃 𝜇, 𝜎 , 𝜃 𝜇, 𝜎 ∞ 𝜇 ∞, 0 𝜎

𝑝 𝑥, 𝜃 exp

(2) 𝒳 が離散集合の場合𝒳 𝑥 , ⋯ , 𝑥 , 𝑥 , 𝜃 𝜃 , ⋯ , 𝜃 𝜃 0, ∑ 𝜃 1

𝑝 𝑥 : 𝜃𝜃 1 𝑖 𝑛1 ∑ 𝜃 𝑖 𝑛 1

Page 17: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

フィッシャー情報計量• パラメーターの微⼩変化に由来する密度関数の相対変化の⼆乗

の期待値を⽤いてフィッシャー情報計量を定義する.

𝑑𝑠 𝐸 𝐸 ∑ 𝑑𝜃 ∑ 𝑔 𝑑𝜃 𝑑𝜃,

• 上式から 𝑔 𝜃 𝐸

• 𝑙 𝑥; 𝜃 log 𝑝 𝑥; 𝜃 を⽤いると𝑔 𝜃 𝐸 ; ; ; ; 𝑝 𝑥; 𝜃 𝑑𝑥 (5)

Page 18: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

フィッシャー情報⾏列• 𝑛 𝑛 ⾏列 𝐺 𝜃 𝑔 𝜃 をフィッシャー情報⾏列と呼ぶ.𝐺 𝜃 は対称

⾏列( 𝑔 𝑔 )であり,任意のベクトル 𝑐 𝑐 , ⋯ , 𝑐 に対して以下の不等式が成り⽴つので,⾮負定値である.

𝑐 𝐺 𝜃 𝑐 ∑ 𝑐 𝑐 𝑔 𝜃, ∑ 𝑐 ; 𝑝 𝑥; 𝜃 𝑑𝑥 0

, ⋯ , が𝒳上の関数として⼀次独⽴ならば正定値となる.• 𝜕 𝑙 𝑝𝑑𝑥 𝜕 𝑝 𝑑𝑥 𝜕 𝑝 𝑑𝑥 𝜕 1 0 であるから 0 𝜕 𝜕 𝑙 𝑝𝑑𝑥

𝜕 𝜕 𝑙 𝑝𝑑𝑥 𝜕 𝑙 𝜕 𝑝 𝑑𝑥 𝐸 𝜕 𝜕 𝑙 𝜕 𝑙 𝜕 𝑙 𝑝𝑑𝑥

𝐸 𝜕 𝜕 𝑙 𝐸 𝜕 𝑙 𝜕 𝑙 ⟹ 𝑔 𝜃 𝐸 𝜕 𝜕 𝑙

Page 19: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

正規分布空間のフィッシャー計量• 平均値と標準偏差の組 𝜇, 𝜎 をパラメーター(座標ともいう)

とする正規分布空間のフィッシャー計量は (5)式から𝑑𝑠

• 変換 𝜇, 𝜎 → 𝑥, 𝑦 , 𝜎 を⾏うと計量は𝑑𝑠 2 2𝑑𝑠

となり,ポアンカレ上半平⾯モデル 𝐻 の計量に⽐例する.• ポアンカレ上半⾯モデルはロバチェフスキーの双曲幾何学とし

てよく知られており,以下ではこのモデルを⽤いる.

Page 20: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

の測地線⽅程式の導出(1)

• 𝑠 𝑑𝑠 𝑑𝑡 𝐿𝑑𝑡 ⟹ min

• 測地線の⽅程式は次の Euler-Lagrange ⽅程式を満たす. , ,また 𝐿 ⟹

• 0 ⟹ 0 ⟹ 0 (6)

• ⟹

⟹ (7)

Page 21: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

の測地線⽅程式の導出(2)• (6) ⟹ 𝑎𝑦 ,𝑎 0 のときには測地線は 𝑦 軸に平⾏となる.

• 𝑎𝑦 , 2𝑎𝑦 𝑎𝑦

2𝑎 𝑦 𝑎 𝑦 を (7) 式にいれると

𝑎 𝑎 𝑎 𝑦 𝑎 𝑦 𝑎 𝑦

⟹ 𝑦 1 0 ⟹ 𝑦 1 , 𝑦 𝑥 𝑏𝑥 𝑐

これは 𝑥軸上に中⼼を持つ円である.

Page 22: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

の2点間の距離(⾓度表⽰)• 2点 𝑃 , 𝑄 間の距離 𝑑 𝑃, 𝑄 は

𝑑 𝑃, 𝑄 𝑑𝑠 𝑑𝑥 𝑑𝑦 /𝑦測地線の中⼼を 𝑐, 0 ,半径を 𝑟 とすると𝑥 𝑐 𝑟cos𝜃 , 𝑦 𝑟sin𝜃 と表⽰できるので,𝑃 , 𝑄 に対応する 𝜃 の値を 𝜃 , 𝜃 とすると𝑑 𝑃, 𝑄 𝑑𝜃 /sin𝜃 log /

/

• 𝑦 軸に平⾏の場合には,𝑃, 𝑄 の 𝑦 座標をそれぞれ𝑎, 𝑏 𝑎 𝑏 とすると𝑑 𝑃, 𝑄 𝑑𝑦/𝑦 log𝑦 log

Page 23: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

の2点間の距離(複素数表⽰)• 𝑃, 𝑄 の複素数表⽰が 𝑃 𝑧 , 𝑄 𝑤 のとき

𝑑 𝑃, 𝑄 log 1 / 1 (*)• 𝑧, 𝑤 を結ぶ測地線円の中⼼Oからの偏⾓をそれぞ

れ 2𝜃, 2𝜙 , 半径を 𝑟 とすると,𝑧 𝑤 2𝑟sin 𝜃 𝜙 , 𝑧 𝑤 2𝑟sin 𝜃 𝜙

• 𝑃, 𝑄 の実部が等しい場合,すなわち,𝑃 𝑎 𝑏𝑖 , 𝑄 𝑎 𝑐𝑖 ⟹ 𝑑 𝑃, 𝑄 log

Page 24: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

距離の公式• 𝑧 𝑥 𝑖𝑦 , 𝑤 𝑥 𝑖𝑦 と表すと

𝑑 𝑥 , 𝑦 , 𝑥 , 𝑦 cosh 1

• 正規分布空間から 𝐻 への変換 Ψ ∶ 𝐻 → 𝐻 はΨ 𝜇, 𝜎 , 𝜎

• 従って,正規分布空間の距離は𝑑 𝜇 , 𝜎 , 𝜇 , 𝜎 2𝑑 , 𝜎 , , 𝜎

• 正規分布空間の測地線は,𝑦 軸に平⾏な直線かまたは 𝑥 軸上に中⼼を持つ離⼼率 の半楕円である.

Page 25: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

正規分布空間内の測地円• 左図は 𝐴 1.5,0.75 を中⼼とし,半径

2.3769 の正規分布空間内の測地円である.この円はユークリッド的にみると離⼼率1/ 2 の楕円である.中⼼はユークリッド中⼼より下にある.

• 右下の半楕円が点 A,B をむすぶ測地線である.

• 𝐴𝐵, 𝐴𝐸, 𝐴𝐹 は測地半径であり,𝑑 𝐴, 𝐵 𝑑 𝐴, 𝐸 𝑑 𝐴, 𝐹

Page 26: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

正規分布の平均• ⻘点は10個の乱数正規分布のデータ

(データ数は 80~120)の 𝜇, 𝜎 である.• ⾚点はフィッシャー距離で平均した 𝜇, 𝜎• ⻩⾊はユークリッド距離で平均した 𝜇, 𝜎• 緑の点は全データから求めた 𝜇, 𝜎• ⾚点と緑点が近いことがわかる.μ

σ

4 2 0 2 40

1

2

3

4

Page 27: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

正規分布の補間• ⾚点 (-6.3,2.6) と⻘点(3.5,0.95)

を5点(0.2,0.4,0.5,0.6,0.8)の補間点で補間した図である.

• 平均点は緑の点である.標準偏差が両端に⽐べて⼤きくなっていることがわかる.

• 平均値も中点からずれていることがわかる.

Page 28: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

最適輸送理論• 最適輸送理論とは「物質をある場

所から他の場所へ最⼩費⽤で移す理論」である.

• 18 世紀後半に,モンジュはどこかの⼟を掘り取って運び,城を守る盛り⼟を作ることを考えていた.

• 最適輸送問題とは,確率測度空間上の変分問題で,特別な場合にはワッサースタイン計量と呼ばれる確率測度空間上の計量を導く.

𝜇 𝜈

物質の質量は輸送の前後で不変とし,簡単のため質量を1に正規化する.すると物質の分布は確率分布とみなすことができる.上図では最初の分布はμ,後の分布は𝜈 である.

Page 29: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

ガスパール・モンジュ• フランスの数学者・科学者・⼯学者・

貴族.エコール・ポリテクニークの創始者

• 今⽇知られる微分幾何学を開発し,微積分を⽤いた曲⾯の研究で知られる.

• モンジュ・アンペールの⽅程式や最適輸送理論などの研究でも知られる.

• 軍事技術関連では,⼤砲鋳造や⽕薬製造法なども開発している.

1746 ‒ 1818ナポレオンのエジプト遠征にも同⾏した.

Page 30: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

ヒストグラム,離散測度• ヒストグラム

Σ𝑎 𝑎 , ⋯ , 𝑎 ∈ 𝑅∑ 𝑎 1

• ディラック測度𝛼 ∑ 𝑎 𝛿𝑎 , ⋯ , 𝑎 ∈ Σ𝑥 , ⋯ , 𝑥 ∈ 𝑅

𝛿 𝑑𝑥 1

Page 31: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

⼀般の測度• 測度は,関数空間 𝐶 𝑋 𝑋 ⊂ 𝑅 から 𝑅 への⼀次写像を与える.

すなわち,測度の全体は関数空間の双対空間である.𝑋 上の測度の空間をℳ 𝑋 , 確率測度の空間をℳ 𝑋 と表す.

• 離散測度 𝛼 で連続関数 𝑓 ∈ 𝐶 𝑋 を積分すると𝑓 𝑥 𝑑𝛼 𝑥 ∑ 𝑎 𝑓 𝑥

• ルベーグ測度に関して絶対連続な⼀般測度による積分は𝑓 𝑥 𝑑𝛼 𝑥 𝑓 𝑥 𝜌 𝑥 𝑑𝑥

ここで 𝜌 𝑥 は分布の密度関数

Page 32: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

離散測度間のモンジュ問題• 離散測度 𝛼 ∑ 𝑎 𝛿 と 𝛽 ∑ 𝑏 𝛿 の間で,各 𝑥 に 𝑦 を

対応させる写像で,𝑇: 𝑥 , ⋯ , 𝑥 → 𝑦 , ⋯ , 𝑦 とするとき∀ 𝑗 ∈ 1, ⋯ , 𝑚 , 𝑏 ∑ 𝑎:

を満たすものをモンジュ写像と呼ぶ.これを 𝑇⋕𝛼 𝛽 と表し, 𝛽 を𝛼 のPush-forward と呼ぶ. 𝑇⋕𝛼 ∑ 𝑎 𝛿 .

• 輸送コスト 𝑐 𝑥, 𝑦 , 𝑥, 𝑦 ∈ 𝑋 𝑌 𝑅 𝑅 を考え,min ∑ 𝑐 𝑥 , 𝑇 𝑥 ∶ 𝑇⋕𝛼 𝛽

を与える 𝑇: 𝑋 → 𝑌 を⾒つける問題をモンジュ問題と呼ぶ.

Page 33: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

⼀般測度の Push-forward• 𝛼 ∈ ℳ 𝑋 の写像 𝑇: 𝑋 → 𝑌 による Push-forward 測度 𝛽 𝑇⋕𝛼

に対しては以下が成り⽴つ.∀𝑓 ∈ 𝐶 𝑌 , 𝑓 𝑦 𝑑𝛽 𝑦 𝑓 𝑇 𝑥 𝑑𝛼 𝑥

• 可測集合 𝐵 ⊂ 𝑌 に対して𝛽 𝐵 𝛼 𝐴 𝐴 𝑇 𝐵 𝑥: 𝑇 𝑥 ∈ 𝐵

• 合成写像に対して𝑆 ∘ 𝑇 ⋕𝛼 𝑆⋕ 𝑇⋕𝛼

𝛽 𝐵 𝛼 𝐴

Page 34: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

密度関数の変換• が1対1で微分可能, ⋕ がルベーグ測度に関して絶対連続,すなわち,

の場合には,以下のような変換則が成り⽴つ.

の場合

, ,⋯,

Page 35: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

⼀般測度間のモンジュ問題• 写像 𝑇 ∶ 𝑋 → 𝑌 が存在して,𝛽 𝑇⋕𝛼 𝛼 ∈ ℳ 𝑋 , 𝛽 ∈ ℳ 𝑌 が

成り⽴つとき,𝑇 を 𝛼 と 𝛽 の間のモンジュ写像と呼ぶ.• 𝛼 ∈ ℳ 𝑋 , 𝛽 ∈ ℳ 𝑌 が与えられたとき,最⼩化問題

𝑀 𝛼, 𝛽 min 𝑐 𝑥, 𝑇 𝑥 𝑑𝛼 𝑥 ∶ 𝑇⋕𝛼 𝛽の解 𝑇 ∶ 𝑋 → 𝑌 を求める問題をモンジュ問題と呼ぶ.

• コスト関数としては,𝑐 𝑥, 𝑦 𝑥 𝑦 , 𝑐 𝑥, 𝑦 𝑥 𝑦𝑐 𝑥, 𝑦 𝑝 1 などが考えられる.

Page 36: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

モンジュ問題の難点

• の場合, であるのに対し, .従ってモンジュ写像は存在しない.•式 (*) をみればわかるように,モンジュ写像による密度関数の変換は,⾮常に複雑な⾮線形の関係を与える.•これらの難点は,写像,すなわち,多対1の対応によるものである.

Page 37: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

モンジュ写像のコスト• 𝑋 0,1 , 𝑌 1,2

𝑀 𝑇 𝑐 𝑥, 𝑇 𝑥 𝑑𝑥 , 𝑐 𝑥, 𝑦 𝑦 𝑥• 𝑇 𝑥 𝑥 1 , 𝑇 𝑥 2 𝑥

𝑇 𝑥𝑥 if 0 𝑥

2 𝑥 if 𝑥 1

• 𝑀 𝑇 𝑇 𝑥 𝑥 𝑑𝑥 1

𝑀 𝑇 𝑇 𝑥 𝑥 𝑑𝑥 2 2𝑥 𝑑𝑥 ≅ 1.33

𝑀 𝑇 𝑇 𝑥 𝑥 𝑑𝑥 𝑑𝑥 2 2𝑥 𝑑𝑥

≅ 1.29

𝑇𝑇

𝑇

𝑇

1𝑋

𝑌

Page 38: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

カントロヴィチ問題• カントロヴィチは,モンジュ写像の難点克服のため,写像のかわり

に,𝛼 ∈ ℳ 𝑋 , 𝛽 ∈ ℳ 𝑌 を周辺分布とする 𝑋 𝑌 上の同時確率分布(カップリングと呼ぶ)𝜋 ∈ ℳ 𝑋 𝑌 を考えた.

• 𝛱 𝛼, 𝛽 𝜋 ∈ ℳ 𝑋 𝑌 ∶ 𝑃 ⋕𝜋 𝛼 , 𝑃 ⋕𝜋 𝛽ここで,𝑃 ∶ 𝑋 𝑌 → 𝑋 , 𝑃 𝑥, 𝑦 𝑥 ,𝑃 も同様.

• 𝜋 𝐴 𝑌 𝛼 𝐴 , 𝜋 𝑋 𝐵 𝛽 𝐵 𝐴 ⊂ 𝑋 , 𝐵 ⊂ 𝑌• コスト関数の最⼩化

𝐾 𝛼, 𝛽 min∈ ,

𝑐 𝑥, 𝑦 𝑑𝜋 𝑥, 𝑦

Page 39: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

モンジュとカントロヴィチ問題の⽐較

• 𝛱 𝛼, 𝛽 は,測度空間の弱位相に関して点列コンパクト.

• 𝜋 → 𝑐𝑑𝜋 は,連続で線形• 𝑇 ∶ 𝑋 → 𝑌 がモンジュ写像のとき,

𝑑𝜋 𝑥, 𝑦 𝑑𝛼 𝑥 𝛿 とすると𝑐𝑑𝜋 𝑐 𝑥, 𝑦 𝛿 𝑑𝑦𝑑𝛼 𝑥

𝑐 𝑥, 𝑇 𝑥 𝑑𝛼 𝑥

𝛼

𝛽𝜋

Page 40: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

レオニート・カントロヴィチ• ロシアの数学者・経済学者• 最適計画,経済資源の最適配分に関す

る研究を進め,1949年スターリン国家賞を受賞

• 1965年,レーニン賞を受賞• 1975年,チャリング・クープマンスと

ともにノーベル経済学賞を受賞• その他,線形計画法や最適輸送理論で

先駆的な業績を収める.1912 - 1986

Page 41: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

最適輸送問題• 複数の⼯場 𝐹 , ⋯ , 𝐹 で⽣産した量 𝑎 , ⋯ , 𝑎 の物資があり,こ

れを別の場所の倉庫 𝑊 , ⋯ , 𝑊 に保管するものとする.物資はすべて保管するものとし,𝑊 には 𝑏 の物資を割り当てる.従って, ∑ 𝑎 ∑ 𝑏 である.

• 𝐹 から 𝑊 へ物資を輸送するに当たって,単位量あたり 𝐶 のコストがかかるものとする. 𝐹 から 𝑊 へ輸送する物資の量を𝑃 とすると,輸送にかかるコストは 𝐂, 𝐏 ∑ 𝐶 𝑃 である.そして,輸送コストを最⼩にする輸送⽅法を求める問題を最適輸送問題という.問題設定から, 𝑎 ∑ 𝑃 ,𝑏 ∑ 𝑃 が成り⽴つ.

Page 42: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

上記問題に対して,⼆つ表を⽤意する.1つは⼯場 𝑖 と倉庫 𝑗 の間の単位輸送費⽤𝐶 を⼊れておく表で,もう1つは輸送量 𝑃 を格納しておく作業スペースである.下段の表は 𝑛 3 , 𝑚 5 の場合の具体的な数値例である.

𝒊 ⋱ 𝒋 1 2 ⋯ m1 𝐶 𝐶 ⋯ 𝐶2 𝐶 𝐶 ⋯ 𝐶⋮ ⋮ ⋮ ⋯ ⋮n 𝐶 𝐶 ⋯ 𝐶

𝒊 ⋱ 𝒋 1 2 ⋯ m 𝒂𝒊

1 𝑃 𝑃 ⋯ 𝑃 𝑎2 𝑃 𝑃 ⋯ 𝑃 𝑎⋮ ⋮ ⋮ ⋯ ⋮ ⋮n 𝑃 𝑃 ⋯ 𝑃 𝑎

𝑏 𝑏 𝑏 ⋯ 𝑏 Total

𝒊 ⋱ 𝒋 1 2 3 4 51 3 6 7 5 22 8 3 4 3 53 2 8 6 4 6

𝒊 ⋱ 𝒋 1 2 3 4 5 𝒂𝒊

1 𝑃 𝑃 𝑃 𝑃 𝑃 162 𝑃 𝑃 𝑃 𝑃 𝑃 353 𝑃 𝑃 𝑃 𝑃 𝑃 19 𝑏 18 17 14 6 15 (70)

Page 43: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

北⻄隅のルール(1)𝒊 ⋱ 𝒋 1 2 3 4 5 供給量

1 16 0 0 0 0 02 𝑃 𝑃 𝑃 𝑃 𝑃 353 𝑃 𝑃 𝑃 𝑃 𝑃 19

需要量 2 17 14 6 15

• 最初に,制約条件を満たす⼀組の 𝑃を求めるための⽅法を説明する.𝑃の値に,𝑎 と 𝑏 の⼩さい⽅を割り当てる.この結果 𝑃 16 となるが,⼯場1の供給能⼒は全部使い果たされるので,他の倉庫には供給されない.⼀⽅,倉庫1の残存需要は2となる.

• 次のステップは,まだ値が決まっていない変数で表の北⻄隅にあるもの(この場合 𝑃 )を選んで,倉庫1の残存需要と⼯場2の供給能⼒の⼩さい⽅の2に固定する.この結果,倉庫1の需要はすべて満たされるので,他⼯場から倉庫1への輸送量は0となり,⼯場2の供給能⼒は33となる.

𝒊 ⋱ 𝒋 1 2 3 4 5 供給量1 16 0 0 0 0 02 2 𝑃 𝑃 𝑃 𝑃 333 0 𝑃 𝑃 𝑃 𝑃 19

需要量 0 17 14 6 15

Page 44: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

北⻄隅のルール(2)1 2 3 4 5

1 16 0 0 0 0 02 2 17 𝑃 𝑃 𝑃 163 0 0 𝑃 𝑃 𝑃 19

0 0 14 6 15

1 2 3 4 51 16 0 0 0 02 2 17 14 𝑃 𝑃 23 0 0 0 𝑃 𝑃 19

0 0 0 6 15

1 2 3 4 51 16 0 0 0 0 02 2 17 14 2 0 03 0 0 0 4 15 0

0 0 0 0 0

同様にして,つねにまだ値の確定していない北⻄隅の変数を取り出し,対応する⼯場の残存能⼒と倉庫の残存需要の⼩さい⽅の数値を当てはめていくと,上段の表を経て最終的に左表が得られる.この表では,⼯場の残存供給能⼒,倉庫の残存需要はすべて0となっている.このやり⽅で得られた 𝑃 が供給・需要の制約をすべて満たしいることは明らかである.このときの輸送費⽤は 𝐶, 𝑃 283 である.

Page 45: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

⾶び⽯法 --- 解の改善• 次のステップは,北⻄隅のルールで得られた実⾏可能解を改善していくのである

が,そのために次ぎの3つの条件を設定する.(1) 値が0になっている変数を1つ選んで,その値を0からある正の値

(これを 𝜃 とする)まで増加させる.(2) (1)によって乱される需給のバランスを,正の値をもつ変数だけの

調整によって回復する.(3) この結果,輸送費⽤が減少するならば,(1)で選んだ変数を他の変

数が負にならないぎりぎりのレベルまで増加させる.• ⽬安としては,コストの⾼い輸送を減らして,コストの低い輸送を増やすことで

ある.• なお,この⽅針は⼀般の線形計画問題を解く単体法にも受け継がれている.

Page 46: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

⾶び⽯法 --- サイクル1𝟏𝟔 0 0 0 0

2 𝜃 17 14 2 𝜃 0𝜃 0 0 4 𝜃 15

16 0 0 0 00 17 14 4 02 0 0 2 15

コスト表をみると,値が0の変数のコストのうち, 𝐶 が最も⼩さいので,𝑃 を 𝜃 まで増加させる.

第⼀列の和を 18 に保つためには 𝑃 または 𝑃 を減らさなくてはならないが, 𝑃 を減らすとルール (2) の下では第⼀⾏の減少分を回復するのは不可能だから 𝑃 を 𝜃 だけ減らす.すると,𝑃 , 𝑃 , 𝑃 のいずれかを増加させなければならない.ところが,ルール (2) によって2列と3列は調整不可能であるから,𝑃 を 𝜃だけ増やす.このようにして上表に⽰したようなループが定まり再び需給バランスが回復する. これによるコストの変化は𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 7𝜃 である.この結果 𝑃 を 𝜃 0へと増加させると全体のコストは 7𝜃 だけ減少することがわかる.

そこで 𝑃 の値を他の変数が負にならない範囲で可能な限り増やすことにする.上表から明らかなとおり,この変更によって影響を受ける変数のすべてが負にならない最⼤の 𝜃 は2だから,𝜃 2 とすると下表が得られる.この結果,全体のコストは 7𝜃14 だけ減少して 283 14 269 となる.

Page 47: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

⾶び⽯法 --- サイクル2𝟏𝟔 𝜽 0 0 0 𝜽

0 17 14 4 02 𝜃 0 0 2 15 𝜃

1 0 0 0 150 17 14 4 0

17 0 0 2 0

前⾴下表で0となっている変数のうち,𝑃 に対応するコスト 𝐶 が⼩さな値をもつので,𝑃 𝜃 とおくと,前回と同様にして,左上表のようなループが得られる.

これに伴うコストの変化は𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 5𝜃

なので,コストは減少する.他の変数を負にしない範囲で最⼤の 𝜃 は 15 だから,この値を代⼊すると左下表が得られる.この結果コストは⼤きく減少して,269 75 194 となる.

Page 48: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

⾶び⽯法 --- サイクル3

1 0 0 0 150 17 14 4 0

17 0 0 2 0

3 6 7 5 28 3 4 3 52 8 6 4 6

𝑃 が正となっている変数のコストはいずれも4以下で,0となっている変数のコストは5以上だから,これ以上コストは減らないことは明らかであるが,念のため計算すると

𝑃 𝜃 ∶ 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝜃𝑃 𝜃 ∶ 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝜃𝑃 𝜃 ∶ 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 0𝑃 𝜃 ∶ 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 7𝜃𝑃 𝜃 ∶ 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 5𝜃𝑃 𝜃 ∶ 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 4𝜃𝑃 𝜃 ∶ 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝜃𝑃 𝜃 ∶ 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 𝐶 𝜃 5𝜃

このように,どの0変数を増やしてもコストは減らない.従って,上記の⼿続きではこれ以上解の改善は不可能である.実はこのようになったときに最適輸送問題の解が得られている.

変数表

コスト表

Page 49: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

最適輸送問題の定式化(主問題)• とし,有効な輸送の全体を とすると

𝐦𝐓

𝐧

ここで, 𝐦𝐓

𝐧

•最適輸送コストを 𝐜 とすると𝐂 𝐏∈𝐔 𝐚,𝐛 ,

Page 50: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

最適輸送問題の双対問題• 最適輸送問題は,制約条件つきの凸最⼩問題であるので,ラグ

ランジュ乗数を⽤いて双対問題に変換することができる.双対問題は凹最⼤問題である.

• 最適輸送問題の値は以下の双対問題の値と等しい.𝐋𝐂 𝐚, 𝐛 max

𝐟,𝐠 ∈𝐑 𝐂𝐟, 𝐚 𝐠, 𝐛

ここで,許容される双対変数の集合は𝐑 𝐂 𝐟, 𝐠 ∈ 𝑅 𝑅 ∶ 𝑓 𝑔 𝐶 , 𝑖, 𝑗 ∈ 𝑛 𝑚

• 相補スラック条件から𝑖, 𝑗 ∈ 𝑛 𝑚 : 𝑃 0 ⊂ 𝑖, 𝑗 ∈ 𝑛 𝑚 : 𝑓 𝑔 𝐶

Page 51: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

証明• max

𝐟,𝐠 ∈𝐚 𝐏 ↿𝐦, 𝐟 𝐛 𝐏𝐓 ↿𝐦, 𝐠 0 , if 𝐏 ∈ 𝐔 𝐚, 𝐛

∞ であるから,

min𝐏∈𝐔 𝐚,𝐛

𝐂, 𝐏 と次式は同値である.min𝐏

max𝐟,𝐠 ∈

𝐂, 𝐏 𝐚 𝐏 ↿𝐦, 𝐟 𝐛 𝐏𝐓 ↿𝐦, 𝐠

• min とmax を⼊れ換えると(ミニマックス原理)max

𝐟,𝐠 ∈𝐚, 𝐟 𝐛, 𝐠 min

𝐏𝐂 𝐟 ↿𝐦

𝐓 ↿𝐧 𝐠𝐓, 𝐏

• min𝐏

𝐐, 𝐏 0 if 𝐐 0 ∞ otherwise であるから,前式の min は制約条件

𝐂 𝐟 ↿𝐦𝐓 ↿𝐧 𝐠𝐓 𝐂 𝐟⨁𝐠 𝟎 になる.ここで 𝐟⨁𝐠 𝑓 𝑔 .

• 従って, min𝐏∈𝐔 𝐚,𝐛

𝐂, 𝐏 max𝐟,𝐠 ∈𝐑 𝐂

𝐟, 𝐚 𝐠, 𝐛

Page 52: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

相補スラック定理• 𝐏∗ を最適輸送の主問題の解,𝐟∗, 𝐠∗ を双対問題の解とすると,

∀ 𝑖, 𝑗 ∈ 𝑛 𝑚 に対して,𝑃∗ 𝐶 𝑓∗ 𝑔∗ 0 が成⽴.すなわち,𝑃∗ 0 ならば,𝑓∗ 𝑔∗ 𝐶 .

𝑓∗ 𝑔∗ 𝐶 ならば, 𝑃∗ 0.• 証明 主問題と双対問題の解は⼀致するので,

𝐏∗, 𝐂 𝐟∗, 𝐚 𝐠∗, 𝐛 .𝐏∗ ↿𝐦 𝐚 , 𝐏∗ ↿𝐧 𝐛 を代⼊すると𝐟∗, 𝐚 𝐠∗, 𝐛 𝐟∗, 𝐏∗ ↿𝐦 𝐠∗, 𝐏∗ ↿𝐧

𝐟∗ ↿𝐦 , 𝐏∗ ↿𝐧 𝐠∗ , 𝐏∗

⟹ 𝐏∗, 𝐂 𝐟∗⨁𝐠∗ 0.

Page 53: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

カントロヴィチの主問題(再掲)• 𝛼 ∈ ℳ 𝑋 , 𝛽 ∈ ℳ 𝑌 を周辺分布とする 𝑋 𝑌 上の同時確率

分布(カップリングと呼ぶ)𝜋 ∈ ℳ 𝑋 𝑌 に関するコスト関数の最⼩化問題を考える.

• 𝛱 𝛼, 𝛽 𝜋 ∈ ℳ 𝑋 𝑌 ∶ 𝑃 ⋕𝜋 𝛼 , 𝑃 ⋕𝜋 𝛽ここで,𝑃 ∶ 𝑋 𝑌 → 𝑋 , 𝑃 𝑥, 𝑦 𝑥 ,𝑃 も同様.

• 𝜋 𝐴 𝑌 𝛼 𝐴 , 𝜋 𝑋 𝐵 𝛽 𝐵 𝐴 ⊂ 𝑋 , 𝐵 ⊂ 𝑌• コスト関数の最⼩化

𝐾 𝛼, 𝛽 min∈ ,

𝑐 𝑥, 𝑦 𝑑𝜋 𝑥, 𝑦

Page 54: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

カントロヴィチの双対問題• カントロヴィチの主問題の値は,以下の双対問題の値と等しい.

ℒ 𝛼, 𝛽 max, ∈ℛ

𝜙 𝑥 𝑑𝛼 𝑥 𝜓 𝑦 𝑑𝛽 𝑦

• ここで,許容関数の集合はℛ 𝑐 𝜙, 𝜓 ∈ 𝐶 𝑋 𝐶 𝑌 : ∀ 𝑥, 𝑦 , 𝜙 𝑥 𝜓 𝑦 𝑐 𝑥, 𝑦

𝐶 𝑋 は 𝑋 上の連続関数の集合.𝜙, 𝜓 ∈ ℛ 𝑐 をカントロヴィチ・ポテンシャルと呼ぶ.

• 以下の議論の便宜のため,次の積分を定義する.𝐽 𝜙, 𝜓 𝜙 𝑥 𝑑𝛼 𝑥 𝜓 𝑦 𝑑𝛽 𝑦

Page 55: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

c - Transform• 𝜙 ∈ 𝐶 𝑋 に対して,𝜙 𝑦 inf ∈ 𝑐 𝑥, 𝑦 𝜙 𝑥 ∈ 𝐶 𝑌

𝜓 ∈ 𝐶 𝑌 に対して,𝜓 𝑥 inf ∈ 𝑐 𝑥, 𝑦 𝜓 𝑦 ∈ 𝐶 𝑋

(a) 𝜙 𝜑 ⟹ 𝜙 𝜑 ∵ 𝑐 𝑥, 𝑦 𝜙 𝑥 𝑐 𝑥, 𝑦 𝜑 𝑥 ⟹ 𝜙 𝜑

(b) 𝜙 𝜙∵ 𝜙 𝑦 𝑐 𝑥, 𝑦 𝜙 𝑥 ⟹𝜙 𝑥 inf ∈ 𝑐 𝑥, 𝑦 𝜙 𝑦 inf ∈ 𝑐 𝑥, 𝑦 𝑐 𝑥, 𝑦 𝜙 𝑥 𝜙 𝑥

(c) 𝜙 𝜙∵ (b) ⟹ 𝜙 𝜙 ,(a),(b) ⟹ 𝜙 𝜙

Page 56: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Brenier の定理• 以下では,𝑋 𝑌 Ω ⊂ 𝑅 で,𝑐 𝑥, 𝑦 ℎ 𝑥 𝑦 ℎ ∶ strictly convex の

場合を考える.• 𝜑, 𝜓 ∶ admissible pair ⟹ 𝜑 𝑥 𝑐 𝑥, 𝑦 𝜓 𝑦 ⟹ 𝜑 𝑥 𝜓 𝑥

⟹ 𝐽 𝜓 , 𝜓 𝐽 𝜑, 𝜓• 𝜓 𝑦 inf ∈ 𝑐 𝑥, 𝑦 𝜓 𝑥 𝜓 𝑦

⟹ 𝐽 𝜓 , 𝜓 𝐽 𝜓 , 𝜓 𝐽 𝜑, 𝜓• 従って,双対問題の最⼤値を与える組は 𝜙, 𝜙 𝜓 , 𝜓 の形である.• 主問題と双対問題の解をそれぞれ 𝛾 , 𝜑, 𝜑 とすると,主問題と双対問

題の値が等しいから𝑐 𝑥, 𝑦 𝜑 𝑥 𝜑 𝑦 𝑑𝛾 𝑥, 𝑦 0 (*)

Page 57: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Brenier の定理(続き)• 前⾴の (*) は,相補スラック定理から

𝑥 , 𝑦 ∈ spt 𝛾 ⟹ 𝜑 𝑥 𝜑 𝑦 𝑐 𝑥 , 𝑦𝜑 𝑦 inf ∈ 𝑐 𝑥, 𝑦 𝜑 𝑥 𝑐 𝑥 , 𝑦 𝜑 𝑥

• これは,𝑥 ↣ 𝑐 𝑥, 𝑦 𝜑 𝑥 が,𝑥 𝑥 で最⼩となることを意味する.すなわち,∇𝜑 𝑥 ∇ 𝑐 𝑥 , 𝑦 . 𝑐 𝑥, 𝑦 ℎ 𝑥 𝑦 ℎ ∶ strictly convex の場合,これは ∇𝜑 𝑥 ∇ℎ 𝑥 𝑦 と同値である.逆関数定理により

𝑥 𝑦 ∇ℎ ∇𝜑 𝑥 (*)• 例えば,ℎ 𝑥 𝑥 ならば,∇ℎ 𝑥 𝑥 ⟹ 𝑦 𝑥 ∇𝜑 𝑥

• (*)式は,モンジュ写像 𝑦 𝑇 𝑥 𝑥 ∇ℎ ∇𝜑 𝑥 の存在を意味する.

Page 58: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

p-Wasserstein ( Tanaka ) distance• ヒストグラムや確率測度の間の距離関数を定義する.• 𝑛 𝑚 とし,相異なる 𝑥 , ⋯ , 𝑥 間の距離を𝐃 𝐷 とする.

(1) 𝐃 ∈ 𝑅 は対称⾏列である.(2) 𝐷 0 ⇔ 𝑖 𝑗(3) 1 ∀𝑖, 𝑗, 𝑘 𝑛 に対して,𝐷 𝐷 𝐷

• 𝑝 1 に対して,𝐃 𝐷,

∈ 𝑅 として,以下によって Σ 上の距離を定義する.これを p-Wasserstein distance と呼ぶ.

𝐖 𝐚, 𝐛 𝐋𝐃 𝐚, 𝐛

Page 59: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

が距離関数であることの証明 (1)

• 𝐖 𝐚, 𝐚 0𝐖 𝐚, 𝐚 min

𝐏𝐃 , 𝐏 𝐃 , diag 𝐚 ∑ 𝐷 𝑎 0

• 𝐖 𝐚, 𝐛 0 𝐚 𝐛 𝐚 𝐛 であるから,ある 𝑘 が存在し,𝑎 𝑏 となる.任意の有効な輸送 𝐏 について 𝑃 𝑏 , ∑ 𝑃 𝑎 であるから∑ 𝑃 𝑎 𝑃 𝑎 𝑏 . 𝐷∗ min 𝐷 とすると

𝐃 , 𝐏 ∑ 𝐷 𝑃 𝐷∗ ∑ 𝑃 𝐷∗ 𝑎 𝑏 0 𝐷∗ 𝑎 𝑏 は 𝐏 によらないので, 𝐖 𝐚, 𝐛 0 が成り⽴つ.

Page 60: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

が距離関数であることの証明 (2)

• 𝐖 𝐚, 𝐛 𝐖 𝐛, 𝐚𝐖 𝐚, 𝐛 , 𝐖 𝐛, 𝐚 を与える最適輸送をそれぞれ 𝐏, 𝐐 とすると𝐖 𝐚, 𝐛 𝐃 , 𝐏 𝐃 , 𝐐 𝐃 , 𝐐 𝐃 , 𝐐 𝐖 𝐛, 𝐚逆も同等であるから, 𝐖 𝐚, 𝐛 𝐖 𝐛, 𝐚• 𝐖 𝐚, 𝐜 𝐖 𝐚, 𝐛 𝐖 𝐛, 𝐜

𝐖 𝐚, 𝐛 , 𝐖 𝐛, 𝐜 を与える最適輸送をそれぞれ 𝐏, 𝐐 とする.𝐒 𝐏𝑑𝑖𝑎𝑔 𝟏/𝐛 𝐐 ∈ 𝑅 とすると,𝐒𝟏𝐧 𝐏𝑑𝑖𝑎𝑔 𝟏/𝐛 𝐐 𝟏𝐧 𝐏𝑑𝑖𝑎𝑔 𝟏/𝐛 𝐛= 𝐏 𝟏𝐧 𝐚 , 𝐒 𝟏𝐧 𝐜であるから,𝐒 ∈ 𝐔 𝐚, 𝐜

Page 61: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

が距離関数であることの証明 (3)

• 𝐖 𝐚, 𝐜 min𝐏∈𝐔 𝐚,𝐜

𝐃 , 𝐏 / 𝐃 , 𝐒

∑ 𝐷, ∑/

∑ 𝐷 𝐷, ,

∑ 𝐷, ,

/+ ∑ 𝐷, ,

/

∑ 𝐷 𝑃, ∑/

+ ∑ 𝐷 𝑄, ∑/

∑ 𝐷 𝑃,/

+ ∑ 𝐷 𝑄,/

𝐖 𝐚, 𝐛 + 𝐖 𝐛, 𝐜

Page 62: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

⼀般測度の p-Wasserstein distance• 𝑋 𝑌 を距離空間とし,距離関数を 𝑑 𝑥, 𝑦 とする.すなわち,

(1) 𝑑 𝑥, 𝑦 𝑑 𝑦, 𝑥 0(2) 𝑑 𝑥, 𝑦 0 if and only if 𝑥 𝑦(3) ∀ 𝑥, 𝑦, 𝑧 ∈ 𝑋 , 𝑑 𝑥, 𝑧 𝑑 𝑥, 𝑦 𝑑 𝑦, 𝑧

このとき,𝑋 上の⼀般測度の p-Wasserstein distance を𝑊 𝛼, 𝛽 𝐾 𝛼, 𝛽 / 𝛼, 𝛽 ∈ ℳ 𝑋 と定義すると(1) 𝑊 𝛼, 𝛽 𝑊 𝛽, 𝛼(2) 𝑊 𝛼, 𝛽 0 if and only if 𝛼 𝛽(3) ∀ 𝛼, 𝛽, 𝛾 ∈ ℳ 𝑋 , 𝑊 𝛼, 𝛾 𝑊 𝛼, 𝛽 𝑊 𝛽, 𝛾

Page 63: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Binary cost matrix and 1-norm0 1 1 1 11 0 1 1 11 1 0 1 11 1 1 0 11 1 1 1 0

2 0 0 0 0 21 2 3 0 0 60 0 1 1 1 30 0 0 0 1 10 0 0 0 3 33 2 4 1 5 15

• 𝐂 ↿ 𝐼• 𝐋𝐜 𝐚, 𝐛 𝐚 𝐛 ∑ 𝑎 𝑏• 左記は反例

𝐚 𝐛 1 4 1 0 2 8𝐋𝐜 𝐚, 𝐛 1 3 1 1 1=7𝐋𝐜 𝐚, 𝐛 1 3 2=62 0 0 0 0 21 2 3 0 0 60 0 1 1 𝜃 1 𝜃 30 0 0 𝜃 1 𝜃 10 0 0 0 3 33 2 4 1 5 15

Page 64: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

1−D Generic Case• 𝑅 上の測度 𝛼 に対して,その累積密度関数を次式で定義する.

𝐶 𝑥 𝑑𝛼 𝛼 ∞, 𝑥 ∶ 右連続 , 𝐶 ∞ 0 , 𝐶 ∞ 1 • その⼀般逆関数(分位点関数)は次式で定義される.

𝐶 𝑡 inf 𝑥 ∈ 𝑅 ∶ 𝐶 𝑥 𝑡 ∶ 0,1 → 𝑅

• ∀ 𝑝 1 , 𝑊 𝛼, 𝛽 𝐶 𝐶,

𝐶 𝑡 𝐶 𝑡 𝑑𝑡

• 𝑊 𝛼, 𝛽 𝐶 𝐶,

𝐶 𝐶 𝐶 𝑥 𝐶 𝑥 𝑑𝑥

• 𝑇 𝐶 ∘ 𝐶 ⟹ 𝑇⋕𝛼 𝛽 (Optimal Monge map)

Page 65: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

解説• 𝜂 𝐶 , 𝐶

⋕ℒ , ∈ Π 𝛼, 𝛽 が Kantorovich optimal solution となる.

• 𝜂 ∞, 𝑥 ∞, 𝑦 𝑡 ∈ 0,1 ∶ 𝐶 𝑡 𝑥, 𝐶 𝑡 𝑦𝑡 ∈ 0,1 ∶ 𝐶 𝑥 𝑡, 𝐶 𝑥 𝑡 min 𝐶 𝑥 , 𝐶 𝑦

• 𝐶⋕

ℒ , 𝛽 , 𝐶 ⋕𝛼 ℒ , ⟹ 𝐶 ∘ 𝐶⋕

𝛼 𝛽 が成り⽴つ.• 𝑐 𝑥, 𝑦 ℎ 𝑥 𝑦 , ℎ ∶ 𝑅 → 0, ∞ convex and continuous とすると

ℎ 𝑥 𝑦 𝑑𝜂 𝑥, 𝑦 ℎ 𝑥 𝑦 𝑑 𝐶 , 𝐶⋕

ℒ , 𝑥, 𝑦

ℎ 𝐶 𝑡 𝐶 𝑡 𝑑𝑡 ℎ 𝑥 𝐶 𝐶 𝑥 𝑑𝛼 𝑥

Page 66: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

𝐶⋕

ℒ , ∞, 𝑦

ℒ , 𝑡 ∶ 𝐶 𝑡 𝑦ℒ , 𝑡 ∶ 𝑡 𝐶 𝑦𝐶 𝑦𝛽 ∞, 𝑦

⟹ 𝐶⋕

ℒ , 𝛽

𝐶 は連続と仮定すると∀ 𝑡 ∈ 0,1 ⟹ ∃ 𝑥 𝐶 𝑡𝐶 ⋕𝛼 0, 𝑡

𝛼 𝑥 ∶ 𝐶 𝑥 𝑡𝛼 𝑥 ∶ 𝐶 𝑥 𝐶 𝑥𝛼 𝑥 ∶ 𝑥 𝑥

𝐶 𝑥 𝑡 ℒ , 0, 𝑡⟹ 𝐶 ⋕𝛼 ℒ ,

Page 67: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

正規分布間の距離(1)• 𝛼 𝒩 𝜇 , Σ , 𝛽 𝒩 𝜇 , Σ を 𝑅 における⼆つの正規分布とすると

𝑇⋕𝜌 𝜌 𝜌 , 𝜌 ∶ density なるモンジュ写像は以下で与えられる.

𝑇 ∶ 𝑥 → 𝜇 𝐴 𝑥 𝜇 𝐴 Σ Σ Σ Σ Σ 𝐴

• 𝐴Σ 𝐴 Σ Σ Σ Σ Σ Σ Σ Σ Σ Σ Σ Σ Σ Σ

• 𝜌 𝑇 𝑥 det 2𝜋Σ exp 𝑇 𝑥 𝜇 , Σ 𝑇 𝑥 𝜇

det 2𝜋Σ exp 𝑥 𝜇 , 𝐴 Σ 𝐴 𝑥 𝜇

det 2𝜋Σ exp 𝑥 𝜇 , Σ 𝑥 𝜇

Page 68: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

正規分布間の距離(2)

• det ∇𝑇 𝑥 det𝐴 ⟹ det ∇𝑇 𝑥 𝜌 𝑇 𝑥 𝜌 𝑥

• 𝑇 ∇𝜑 ∶ 𝜑 𝑥 𝑥 𝜇 , 𝐴 𝑥 𝜇 𝜇 , 𝑥 (Brenierʼs Theorem)

• 𝑊 𝛼, 𝛽 𝑥 𝑇 𝑥 𝑑𝜌 𝑥 𝜇 𝜇 ℬ Σ , Σ

ここで, ℬ Σ , Σ tr Σ Σ 2 Σ / Σ Σ / /

• 𝑑 1 のとき,𝑇 𝑥 𝑥 𝜇 𝜇

𝑊 𝛼, 𝛽 𝜇 𝜇 𝜎 𝜎 ( Euclid ! )

Page 69: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

正規分布の補間(再掲)• ⾚点 (-6.3,2.6) と⻘点(3.5,0.95)

を5点(0.2,0.4,0.5,0.6,0.8)の補間点で補間した図である.

• 平均点は緑の点である.標準偏差が両端に⽐べて⼤きくなっていることがわかる.

• 平均値も中点からずれていることがわかる.

Page 70: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

ワッサースタイン補間

Page 71: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Displacement Interpolation⋕ ⋕

Page 72: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Wasserstein Barycentersargmin 𝜆 𝑊 𝜇, 𝜇 , 𝜆 1 , 𝜆 0

Page 73: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Kullback-Leibler ダイバージェンス• 𝐩 , 𝐪 を ∑ 𝑝 1 , ∑ 𝑞 1 , 𝑝 0 , 𝑞 0 , 𝑖 1, ⋯ , 𝑛 を満たす確率

分布とする.KL 𝐩: 𝐪 ∑ 𝑝 log 𝑝 /𝑞 をKL ダイバージェンスと呼ぶ.• KL 𝐩: 𝐪 0 , KL 𝐩: 𝐪 0 は 𝑝 𝑞 𝑖 1, ⋯ , 𝑛 のときのみ.

証明 log 𝑥 𝑥 1 が成り⽴ち,等号は 𝑥 1 のときのみ成⽴する.∑ 𝑝 log ∑ 𝑝 1 ∑ 𝑞 ∑ 𝑝 1 1 0

⟹ ∑ 𝑝 log ∑ 𝑝 log 0 , 等号は 𝑞 𝑝 のときのみ.• ⼀般に KL 𝐩: 𝐪 KL 𝐪: 𝐩 であり,三⾓不等式も成り⽴たない.• KL 𝐩: 𝐪 は分布 𝐩 から測った分布 𝐪 までの距離の⼆乗と考えられる.

Page 74: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Centroid の⽐較• 30 個のランダムな⼆重楕円の平均像を求めた.• (a) は単純に Euclid distance を⽤いたもの• (b) は中⼼を揃えて Euclid distance を⽤いたもの• (c) は Jeffreys divergence を⽤いたもの

J 𝐩, 𝐪 KL 𝐩: 𝐪 KL 𝐪: 𝐩 J 𝐪, 𝐩

J 𝐩, 𝐪 ∑ 𝑝 𝑞 log

• (d) は RKHS distance を⽤いたもの• (e) は 2-Wasserstein distance を⽤いたもので

完全に特徴を捉えている.

Page 75: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Fitting

Page 76: フィッシャー計量と ワッサースタイン計量•David G. Luenberger, “Linear and Nonlinear Programming”, Addison-WesleyPub.(1989) 参考 献(4) •坂元慶 ,

Monge が建設した盛り⼟