29
Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO 湊離散構造処理系プロジェクト [email protected]

大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

大規模離散計算科学特論 (11月7日)

白井 康之

(独)科学技術振興機構 ERATO 湊離散構造処理系プロジェクト

[email protected]

Page 2: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

自己紹介

2

[略歴] 1989年 3月 東京工業大学大学院システム科学専攻(小林重信研究室)修了 1989年 4月 (株)三菱総合研究所入社(人工知能開発室) 1992年 7月 (財)新世代コンピュータ技術開発機構(ICOT) 出向 1995年 3月 (財)新世代コンピュータ技術開発機構(ICOT) 出向解除 2006年 4月 (株)三菱総合研究所 主席研究員(情報技術研究センター)

(先端的情報技術に関する調査・分析業務に従事) 2010年 5月 (独)科学技術振興機構 ERATO湊離散構造処理系プロジェクト 技術参事 人工知能学会,情報処理学会各会員,三菱総研客員研究員 [主なプロジェクト・研究課題] ・説明に基づく学習(Explanation Based Learning) ・クレジットカード与信管理システム,その他データマイニング応用システムの構築 ・新聞記事情報やアンケート情報からの意味のある情報抽出(テキストマイニング) ・情報技術ロードマップの作成 ・第五世代コンピュータプロジェクト(論理型言語による制約充足問題の解決) ・情報技術関連調査(動向調査,フィージビリティスタディ) ・情報大航海プロジェクト(パーソナル情報の収集,蓄積,管理,利活用に関する検討・実験)

Page 3: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

講義内容

自己紹介その他 (11月7日)

手法編 (11月7~8日)

(1-1)はじめに(全体概要)

(1-2)頻出パタンマイニングとその周辺

(1-3)決定木分析法とその周辺

事例紹介 (11月8日)

クレジットカード自動審査,行動履歴解析,健康生活支援,

アンケート分析など

ERATOセミナー(11月8日)

人気感度と多様性に基づく顧客のセグメント化とその応用

Page 4: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

ERATOとは?

4

◆科学技術振興機構(JST)が運営する研究開発プロジェクト (さきがけ,CREST,ERATOの中の一つ) ◆科学技術の源流を作る(革新的な科学技術の芽あるいは将来の新しい流れを創出)。 ◆ 研究者:「産」「学」「官」「海外」からプロジェクトに最適なメンバーを集結。 ◆ 期間: プロジェクト実施期間 5年 ※環境整備期間~1年程度および、成果レビューに応じて最大5年の特別重点期間を付与。

Page 5: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

ERATO湊離散構造処理系プロジェクト

5

Page 6: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

ERATO湊離散構造処理系プロジェクト

6

組織構成-離散構造基盤グループ(北大メインオフィス)(湊総括、PD5名、事務スタッフ3名)

-機械学習・制約充足応用グループ(東工大)(産総研・津田宏治GL、PD1名)

-統計・マイニング応用グループ (大阪梅田)(阪大・鷲尾隆GL、技術員1名、スタッフ1名)

-他、共同・連携研究者多数

各地区サテラボを高品質TV会議システムで常時接続し、ほぼ毎週セミナ(講演会・討論会)を実施中

計算理論(Computer science / 数学)

応用技術(Engineering)

応用技術(Engineering)

応用技術(Engineering)

システム最適化・形式的検証

知識発見・データマイニング

統計解析・モデリング

離散構造処理系(実装技術,“Art”)

計算理論(Computer science / 数学)

応用技術(Engineering)

応用技術(Engineering)

応用技術(Engineering)

システム最適化・形式的検証

知識発見・データマイニング

統計解析・モデリング

離散構造処理系(実装技術,“Art”)

分野横断的な計算理論の領域(概念的・理論的)

個別の工学的応用に特化した技術領域

本研究構想が扱う技術領域

-概念・理論だけでなく処理系実装を重視

-技術基盤としての簡潔さ・汎用性を重視

Page 7: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

ERATOでの成果

フロンティア法の開発とグラフのパス列挙(格子グラフの数え上げ世界一) BDDの計算量に関する理論的成果 系列集合の処理アルゴリズムの開発(SeqBDD) 順列集合の処理アルゴリズム(πDD)の開発と応用 ZDDの並列化実験 ZDDを利用したスマートグリッド電力網への応用 ZDDを利用した集合類似結合への応用 ZDD処理系Graphillionの開発と公開 http://graphillion.org Graphillion を応用したソフトウェアekillion の開発 http://www.nysol.jp 大規模データの高速探索手法(ソーティング,分類)の開発 論理プログラミングと確率推論の融合 モンテカルロ木探索およびコンピュータ囲碁・将棋への応用 簡潔データ構造による大規模データの類似度検索と索引化技術 ビッグデータから新たな科学的発見をもたらす統計手法 グラフ系列からの知識発見(グラフマイニング) 因果構造探索のためのデータ解析法 組合せ論的計算による高次元データからの知識発見 超高次元データからの情報推定・知識発見 ビジネスデータを用いたマイニング検証実験 データ解析コンペティションへの参加

Page 8: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

ERATOでの成果(フカシギの数え方)

2012年度,未来館(お台場)で展示 2012年8月から北大総合博物館(2F)で展示中.

Page 9: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

余談:新世代コンピュータ技術開発機構

ICOT = Institute for New Generation Computer Technology (新世代コンピュータ技術開発機構) 通商産業省(現経済産業省)が1982年に立ち上げた国家プロジェクト.1995年に終了. 電総研(現:産業技術総合研究所), NTT,日立,三菱電機,東芝,NEC, 富士通ほか大手企業が参加 最後の(情報系)巨大国家プロ ジェクトともいわれる. 並列推論マシン PIM と知的応用 プログラムの研究開発

Page 10: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

http://www.jaist.ac.jp/iscenter-new/mpc/old-machines/pim/

並列推論マシン PIM (Parallel Inference Machine) PIM/mは,二次元メッシュネットワーク(16x16)で結合された256個のプロセッサ (それぞれ主記憶80MB)の疎結合型並列マシン

論理型言語KL1(Guarded Horn Clauses)

ICOTの並列推論マシン(1995)

Page 11: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

→ p(1,1) ∨ p(1,2) ∨ p(1,3). → p(2,1) ∨ p(2,2) ∨ p(2,3). → p(3,1) ∨ p(3,2) ∨ p(3,3). p(M1,N), p(M2,N), M1≠M2 → false. P(M,N1), p(M,N2), N1≠N2 → false.

制約充足問題(Queen 問題)

p(1,1) p(1,2) p(1,3)

p(2,1) p(2,2) p(2,3)

p(3,1) p(3,2) p(3,3) p(3,1) p(3,2) p(3,3)

p(2,1) p(2,2) p(2,3)

p(3,1) p(3,2) p(3,3) p(3,1) p(3,2) p(3,3)

× ×

○ ○ ○ ○ × × × × × × × ×

Generation and Testing total : 21 branches are generated and tested

Page 12: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

制約充足問題(Queen 問題)

→ p(1,1) ∨ p(1,2) ∨ p(1,3). → p(2,1) ∨ p(2,2) ∨ p(2,3). → p(3,1) ∨ p(3,2) ∨ p(3,3). p(M1,N), p(M2,N), M1≠M2 → false. P(M,N1), p(M,N2), N1≠N2 → false. p(M,N), N1≠N → -p(M,N1). p(M,N), M1≠M → -p(M1,N).

単位反駁 (Unit Refutation)

単位簡約化 (Unit Simplification)

否定リテラルを導入し枝狩りをする

Integrity Constraints (一貫性制約):

Page 13: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

制約充足問題(Queen 問題)

→ p(1,1) ∨ p(1,2) ∨ p(1,3). → p(2,1) ∨ p(2,2) ∨ p(2,3). → p(3,1) ∨ p(3,2) ∨ p(3,3). p(M1,N), p(M2,N), M1≠M2 → false. P(M,N1), p(M,N2), N1≠N2 → false. p(M,N), N1≠N → -p(M,N1). p(M,N), M1≠M → -p(M1,N).

p(1,1) p(1,2) p(1,3)

p(2,1) p(2,2) p(2,3)

p(3,1) p(3,2) p(3,3) p(3,1) p(3,2) p(3,3)

p(2,1) p(2,2) p(2,3)

p(3,1) p(3,2) p(3,3) p(3,1) p(3,2) p(3,3)

○ ○ ○ ○

Simplification (Pruning) and Generation total : 6 branches are generated (and tested) All branches satisfy the condition.

Page 14: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

準群問題(Quasi-Group Problem)

7種類の準群(存在)問題(QG1~QG7).

準群の制約+以下の付加的制約を加えたラテン方陣の存在に関する問題

(Latin Square)

Page 15: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

QG5 の問題記述(ナイーブ版:Generation and Testing)

Order 5 のケース

Page 16: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

Order 12 は当時 open problem であった.

Order 16 は,その後,いくつかのプログラムで証明に成功.

Order 17 は,九州大学の長谷川教授らによって数年前に解決.

先読み(lookahead)は枝狩りには効果があるが,オーバーヘッドも大きい.

実験結果の一部

Page 17: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

MiniSat Chalmers University http://minisat.se/ SATコンペティションで常に上位

Sugar: A SAT-based Constraint Solver 神戸大学 http://bach.istc.kobe-u.ac.jp/sugar/ SATコンペティションで近年上位を獲得

制約ソルバ―とベンチマーク問題

The TPTP Problem Library for Automated Theorem Proving http://www.cs.miami.edu/~tptp/ ベンチマーク的な例題,ならびに著名なソルバへの変換プログラムがある.制約ソルバ―(定理証明システム界の UCI Data Repository 的な存在)

Page 18: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

PIM/m 上での並列化(OR並列)

どういう戦略が良いかは問題の粒度とマスタプロセッサの能力(タスク分配能力)に依存する.

Page 19: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

並列実行モニタの様子

プロセッサ

→時間(2sec)

Page 20: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

並列実行モニタの様子

Page 21: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

並列実行モニタの様子

Page 22: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

並列実行モニタの様子

Page 23: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

並列実行モニタの様子

Page 24: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

並列実行モニタの様子

Page 25: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

並列実行モニタの様子

Page 26: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

「余談」の結論

256台で並列効果を出したといっても,当時最新の Sun Sparc

SS20 一台よりも遅かった.

完全性をあきらめれば,近似アルゴリズムはあるが,数学の問題や安全性検証等,完全性が求められるアプリケーションも多々ある.

どういう戦略が良いかは問題の粒度や各プロセッサの処理能力,マスタプロセッサの能力(タスク分配能力)に依存する.

アルゴリズム的な工夫は,計算時間を激減させることがある.

Page 27: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

補足:完全性(Completeness)と健全性(Soundness)

「探索」の問題ではしばしば「完全性」と「健全性」が問題となります.

完全性(Completeness)ー 正しい答えがすべて見つかる 健全性(Soundness) ー でてきた答えはすべて正しい

Sound but not complete Sound and complete Complete but not sound

Page 28: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013

補足:完全性(Completeness)と健全性(Soundness)

健全ではあるが,完全ではない(sound) すべてでなくても答えが見つかれば良い問題. 例)パズル 完全であるが,健全ではない(complete) 可能性をすべて列挙したい問題. 例)不正アクセス検知 完全であり,健全である(sound and complete) 必要十分な結果を得たい場合 例)証明問題,パズルの厳密解,安全性検証

Page 29: 大規模離散計算科学特論 - 北海道大学 · 2013-11-08 · Nov 2013 大規模離散計算科学特論 (11月7日) 白井 康之 (独)科学技術振興機構 ERATO

Nov 2013 29