79
Copyright 2014 Shiroyagi Corporation. All rights reserved. シバタアキラ, Ph.D. LHCにおける素粒子 ビッグデータの解析と ROOTライブラリ 白ヤギコーポレーション Tokyo Web Mining #45

LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Embed Size (px)

Citation preview

Page 1: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved.

シバタアキラ, Ph.D.

LHCにおける素粒子ビッグデータの解析とROOTライブラリ

白ヤギコーポレーション

Tokyo Web Mining #45

Page 2: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Ex LHC Physicist, now CEO

Akira Shibata (シバタアキラ), PhD. @madyagi • 2013 -:CEO @Shiroyagi Corporation

• Kamelio : News curation that learns your interests • Kamelio API: Contents Recommendation API

• 2010 - 2013: Strategy Consulting @BCG • 2007 - 2010: Data Scientist @NYU

• Statistical tools for Higgs discovery @LHC, CERN • 2004 - 2007: Ph.D. HEP @London University

Page 3: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 3

Page 4: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 4

Page 5: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 5

Page 6: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 6

PyData.Tokyoかなり盛り上がってます

Page 7: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

-報道関係者様向け資料-

PyData.Tokyo これまでの活動

30人の座席にに毎回百人近い応募 • ディープラーニング • 分散型機械学習 • データ解析インフラ などの旬なテーマを扱い、毎回その分野で活躍するデータサイエンティストにご登壇いただいています。 例えば、第一回は東京大学で深層学習研究をしている中山先生。次回はブレインパッドの佐藤さんをお招きします。

http://pydatatokyo.connpass.com

Page 8: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

-報道関係者様向け資料-

PyData.Tokyoチュートリアルの様子

イベントは渋谷のデンソーアイティーラボラトリにて開催

Page 9: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 9

aial.connpass.comもよろしく

Page 10: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 10

これも出ます

Page 11: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 11

これも出ます

Page 12: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

これでました

Page 13: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved.

• HEPが浮世のデータ分析とどう違う

• ATLASというさらに狭い世界の話→ でも多分いろんな意味でHEPの縮図

• 多分、中に入りすぎてたので、ちょっと細かい話とか多いかも→ つまらなかったら言ってね

• 理論は当時からあんまりわかっていませんでした今はもっとわからないです

• 今回の登壇に際してちょっとリサーチしました→ 相変わらず・・

• オープンデータはあまりありませんでした

13

本日お話したいこと

引退してから5年経ったので、お手柔らかに

Page 14: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 14

2012年7月2日

Page 15: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 15

物理をやってた頃の私

Page 16: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 16

データ量はfb^-1で測ります??

重さはGeVで測ります??

Page 17: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 17

10fb-1 = 100PB??

Page 18: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 18

Elastic Scattering(弾性散乱)

入った粒子が出てくるだけ、ただし力学的特徴が異なる(角度とか)

Page 19: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 19

散乱断面積(Cross Section)

Page 20: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 20

断面が小さい→Inelastic Scattering

出てくる粒子が、入る粒子と違うのがInelasticElasticより小さい断面をめがけて衝突→反応確率は比例して小さい

Page 21: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 21

更には、新しい粒子が作られる

ビームのエネルギーは合計7~8TeV

高いエネルギーの交換の発生確率は更に低い =

更に小さいエリアをめがけて何回も衝突させなくてはならない

E=mc2 それだけ大きいエネルギーが必要

Page 22: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 22

E=mc2 ; m= E/c2 重さの単位は ev/c2多くの場合c2は省略される(c=1)

「素」粒子と言いながら重さは幅広い

陽子・中性子は約1GeV

Page 23: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 23

ほぼ陽子の重さ (LHCのビーム)

ほぼヒッグスの重さ

ヒッグスを作るのは錬金術に近い

Page 24: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 24

素粒子の散乱断面積は小さい

Inelastic Total: 108 nb

Higgs Boson: 10 pb

ただし、最終的に綺麗に見えるものはもっと少ない

Page 25: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 25

山手線並みのスケールのビームパイプ

ここにいました

Page 26: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 26

Page 27: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 27

ほとんどは、粒子の進路を曲げるdipoleマグネット

Page 28: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 28

Luminosityを上げるのがquadrupole

Page 29: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 29

面積はbで測る、データはb-1で測る

b=10-24cm2

• 108nb=10-25cm2

• 10pb=10-35cm2

• 1fb=10-39cm2

Cross Section Beam Luminosity N

L=N/cm-2

• 10fb-1=10x1039cm-2

• 10fb-1=10x1039cm-2

1015 105

x =

1つの衝突が生データで1.6MB、分析レベルで0.1~0.5MB 1015x1.6MB = 1,600,000PB = 1,600EB!!

Page 30: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

100PB in three years

Page 31: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 31

検出器=トラッカー+カロリーメーター

トラッカー (位置を計測する)

カロリーメーター (エネルギーを計測する)

トラッカー (位置を計測する)

Page 32: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 32

データが出てきたらまずは捨てる:トリガー

0.25%

0.008%

0.0006%

99.9995%は1秒以内に捨てる

Page 33: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 33

データ(イベント)は少しずつ再構築される

計測値 (生データ)

クラスに分れた 電気信号の行列

検出器レベル(ESD)

観測された位置、方向や

エネルギーの値

物理レベル(AOD)

観測された粒子 レベルの情報

分析レベル(DPD)

最終的な分析に 必要な部分だけ取り出した情報

トリガーレベル

簡易版の物理構築

イベント選択に使ってあとは捨てる

統計分析

様々なフォーマットがあり、かなり戸惑う しかもメモリとディスクで表現が違ったりしてスキーマが直ぐ死ぬ

“オンライン”

“オフライン”

Page 34: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 34

GRID < クラウドコンピューティング

Gridはイベントの再構築とDPDの生成のために使われる 分析は分散に向いているが、ほとんどローカルで行われる

Page 35: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 35

GRID < クラウドコンピューティング

世界の大学や研究機関に3つのTierで配置されている • T0: CERNのこと。全体の20%位のキャパを有する • T1: 特に大きな研究所 - 生データのレプリカがある。  分担してイベント再構築を行い、ESDを作る

• T2: 結構いろんな大学にある。  主にシミュレーションと、AOD→DPDを行う

• T3: ローカル環境のこと

Page 36: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 36

CERNはインターネットは生み出したが・・・

Page 37: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 37

素粒子の実験は常にビッグデータの先端を走っていたが、インターネットが発達した2000年代からは、データ量でWebに抜かされ、技術の先端もそっちに移った感が強い • データの取扱いはファイルベースのみ • データの処理はプロセスレベルより細分化されない • 「クラウド」は巨大なバッチキュー • プログラムはシングルスレッド • 開発はFortranとC++とPythonがちょっと • 機械学習は「使ってる人もいる」くらい

自らの発明に先を越される

Page 38: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 38

おりしも、CHEPが今週開催されていた

Page 39: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 39

Page 40: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 40

最終的に分析とは何をするの?

オブジェクトレベル

イベントレベル

分析(統計)レベル

• 計測値の補正を行う • オブジェクトIDの精度を上げる

• S/B判別の素性を作る • シグナルイベントの選択 • イベント数を数える

• シミュレーションとの比較 • 計測誤差の推定

• 統計的誤差 • 検出器による誤差 • アルゴリズムによる誤差 • 理論による誤差

Page 41: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 41

ROOTってなに?

つまり: HEP物理学者が必要とするツールを雑多に詰め込んだOOデータ解析ライブラリ 結構長く使われているので、ドキュメントはわるくない

データの保存とIO

ヒストグラムなど可視化

統計モデリングツール (Roofit/RooStat)

機械学習(TMVA)

インタラクティブ環境

オープンソースライブラリ

Page 42: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 42

インタラクティブ環境

もともとCINTというC/C++のReplだったが、最近clangベースになって、clingになった、いい感じ

Page 43: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 43

インタラクティブ環境

10年前は”Advanced”だったのかも

Page 44: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 44

データの保存とIO

DBより少し賢いTTree形式 • イベントごとにループを回しながらデータを取得できる

• オブジェクトを書き出すことができる(ptrも)

• ORMなしでいきなりオブジェクトになってる

テーブル型データとは互換性低 • Ntupleと呼ばれる

Page 45: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 45

ヒストグラムなど可視化

かなり自由自在、matplotlibとかよりだいぶいいです

Page 46: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 46

ヒストグラムなど可視化

Page 47: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 47

ヒストグラムなど可視化

Page 48: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 48

統計モデリングツール(Roofit/RooStat)

ROOTの中でも最もよく知られているアルゴリズム

Page 49: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 49

統計モデリングツール(Roofit/RooStat)

統計的因果推論のモデリング&生成ツール

Page 50: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 50

我々はいつ「発見」するのか(2010年)

Page 51: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 51

2011年

Page 52: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 52

2012年

Page 53: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 53

Page 54: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 54

Page 55: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 55

Page 56: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 56

Page 57: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 57

画像認識などでも応用される技術

http://ss.sysu.edu.cn/~ll/files/lin_sketchrecognition_emmcvpr07.pdfhttp://ss.sysu.edu.cn/~ll/project_objgrammar.html

Page 58: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 58

統計モデリングツール(Roofit/RooStat)

Page 59: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 59

RooStat

複数のモデルを組み合わせるためのフレームワーク

Page 60: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 60

分析の最終段階であらゆる誤差を組み合わせることができる

Page 61: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 61

http://tmva.sourceforge.net/docu/TMVAUsersGuide.pdf

機械学習(TMVA)

Page 62: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 62

機械学習(TMVA)

かなりHEPに特化している&しばらくメンテされてない?

Page 63: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 63

ところで今日はオープンデータ祭り、 ですね

Page 64: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 64

The Higgs ML challenge

Page 65: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 65

The Higgs ML challenge

Page 66: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 66

Page 67: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 67

よく使われるのは s/sqrt(b)

シグナルを増やし、ノイズをコントロール

Page 68: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 68

The Higgs ML challenge: Leader Board

Page 69: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 69

The Higgs ML challenge

今までより 10%向上

Page 70: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 70

http://opendata.cern.ch/collection/ATLAS-Higgs-Challenge-2014

Page 71: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 71

CERNのオープンデータの取り組み

データ出してるのはCMSだけ:

AODレベルデータも公開している

開発環境も 提供していて、バイナリフォーマットの読み込みがで

きる

Page 72: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 72

Page 73: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 73

Page 74: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 74

Page 75: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 75

Page 76: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 76

Page 77: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 77

Page 78: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 78

Page 79: LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

Copyright 2014 Shiroyagi Corporation. All rights reserved. 79