54
加速させたの 仕組と用 米国の最新動向と の役割の変化 2015 6 30 博士(医薬学) 笹原英司 特定非営利活動法人研究会 理事 一般社団法人日本 在日米国商工会議所 IT 小委員会

20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

Embed Size (px)

Citation preview

Page 1: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

ビッグデータプロジェクトを加速させるための仕組みと運用

米国の最新フレームワーク動向とデータアドミニストレータの役割の変化

2015年6月30日博士(医薬学) 笹原英司

特定非営利活動法人ヘルスケアクラウド研究会 理事一般社団法人日本クラウドセキュリティアライアンス在日米国商工会議所 ヘルスケア IT小委員会

Page 2: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

AGENDA

1. ビッグデータの標準化に関する最新動向

2.データアドミニストレータの役割~仕組みと運用のバランス~

3. 米国医療業界のビッグデータ・ユースケース

4. まとめ/Q&A

2

Page 3: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1. ビッグデータの標準化に関する最新動向

3

Page 4: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-1. 米国のビッグデータに係る主な取組

�米国政府の主要所管機関

�大統領行政府~ビッグデータ政策の全般的枠組*政策の企画立案プロセスを公開し、参加を促す

�国立標準研究所(NIST)~技術規格の標準化

�米国連邦取引委員会(FTC)~消費者保護

4

年月 所管機関 内容

2012年3月 大統領行政府 「Big Data Research and Development Initiative」を公表

2013年6月 NIST NISTビッグデータワーキンググループ(NBD-WG)のキックオフミーティングを開催

2013年7月 FTC 13歳未満の子どもを対象とした児童オンラインプライバシー保護法(COPPA)の改正規則を施行

2014年5月 大統領行政府 「BIG DATA: SEIZING OPPORTUNITIES, PRESERVING VALUES」を公表

Page 5: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-1. 米国のビッグデータに係る主な取組(続き)

5

年月 所管機関 内容

2014年5月 FTC 「Data Brokers: A Call for Transparency and Accountability」を公表

2014年9月 FTC ワークショップ「Big Data : A Tool for Inclusion or Exclusion ?」を開催

2014年10月 NIST IEEEビッグデータカンファレンスにて、NISTビッグデータパブリックワーキンググループ(NBD-PWG)のワークショップを開催

2015年3月 FTCプライバシー、データセキュリティ、スマートホーム、ビッグデータ、IoTなど次世代の消費者保護を目的とした技術研究・調査室(OTRI)を新設

2015年4月 NIST NISTビッグデータパブリックワーキンググループ(NBD-PWG)が、ビッグデータ相互運用性フレームワーク・バージョン1.0草案を公表

Page 6: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-2. 米国NISTのビッグデータ標準化の取組(1)

�(参考)ISOのビッグデータレファレンスモデル(2013年5月)

6

出典:ISO/IEC JTC1 SC32 Ad-hoc meeting, May 29, 2013, Gyeongju Korea を基に、日本クラウドセキュリティアライアンス・ビッグデータユーザーワーキンググループが作成 (2014年1月)

Page 7: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-2. 米国NISTのビッグデータ標準化の取組(2)

�NISTビッグデータパブリックワーキンググループ(BD-PWG)

目的=ビッグデータに関わる全セクター共通の定義、分類、リファレンスアーキテクチャ、技術ロードマップの構築

�ビッグデータのソリューションを定義する特性は何か?

�ビッグデータはわれわれがこれまで遭遇してきた伝統的なデータ環境およびそれに関連するアプリケーションとどのように異なるのか?

�ビッグデータ環境に不可欠な特徴は何か?

�このような環境を現在展開されているアーキテクチャとどのように統合するか?

�堅牢なビッグデータソリューションの展開を加速させるために取り組むべき科学や技術、標準化の中心課題は何か?

7

Page 8: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-2. 米国NISTのビッグデータ標準化の取組(3)

�NISTビッグデータ相互運用性フレームワーク「定義/分類」、「ユースケース/要求事項」、「セキュリティ/プライバシー」、「リファレンスアーキテクチャ」、「技術ロードマップ」の各分科会が草案策定作業を行う

8

段階 内容

ステージ1 上位レベルのビッグデータ・リファレンス・アーキテクチャの主な要素で、技術やインフラストラクチャ、ベンダーに依存しないものを定義する

ステージ2 NISTビッグデータ・リファレンス・アーキテクチャ(NBDRA)の要素間の一般的なインタフェースを定義する

ステージ3 一般的なインタフェースを介してビッグデータの一般的なアプリケーションを構築することにより、NBDRAを検証する

V1

Page 9: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(1)

�V1草案の構成

9

表題 内容

M0392: Draft SP 15001 Volume 1: Definitions 定義

M0393: Draft SP 15002 Volume 2: Taxonomies 分類

M0394: Draft SP 15003 Volume 3: Use Case & Requirements ユースケースと要求事項

M0395: Draft SP 15004 Volume 4: Security and Privacy セキュリティとプライバシー

M0396: Draft SP 15005 Volume 5: Architectures White

Paper Surveyアーキテクチャ白書調査

M0397: Draft SP 15006 Volume 6: Reference Architecture レファレンスアーキテクチャ

M0398: Draft SP 15007 Volume 7: Standards Roadmap 標準規格ロードマップ

Page 10: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(2)

�ビッグデータの定義:

Big Data refers to the inability of traditional data architectures to efficiently handle the new datasets. Characteristics of Big Data that force new architectures are volume (i.e., the size of the dataset) and variety (i.e., data from multiple repositories, domains, or types), and the data in motion characteristics of velocity (i.e., rate of flow) and variability (i.e., the change in other characteristics).

10

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 11: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(3)

�NISTビッグデータ・リファレンス・アーキテクチャの分類

11

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 12: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(4)

�NISTビッグデータ・リファレンス・アーキテクチャの全体像

12

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 13: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(5)

�システム・オーケストレーターシステムが充足すべき要求事項の橋渡し役となり、データシステムの要件、設計、モニタリング機能を提供する

13

アクター/ロール(例) 活動内容(例)

・ビジネスリーダー・コンサルタント・データサイエンティスト・情報アーキテクト・ソフトウェアアーキテクト・セキュリティアーキテクト・プライバシーアーキテクト・ネットワークアーキテクト

・ビジネスオーナーシップの要求事項とモニタリング・ガバナンスの要求事項とモニタリング

・データサイエンスの要求事項とモニタリング

・システムアーキテクチャの要求事項とモニタリング

Page 14: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(6)

�データ・プロバイダー

様々なソースから抽象データ型を生成し、異なる機能インタフェースで利用できるような形で提供する

14

アクター/ロール(例) 活動内容(例)

・企業・公的機関・研究者/科学者・検索エンジン・Web、FTPおよびその他のアプリケーション・ネットワーク運用者・エンドユーザー

・ソースからのデータ収集・データの持続性・データのスクラブ・データの注釈付与/メタデータ生成・アクセス権限管理・アクセスポリシー契約・データ配信API

・機能(例.クエリ)のホスティング

Page 15: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(7)

�ビッグデータ・アプリケーション・プロバイダー

システムオーケストレーターが設定した要求事項を充足するために、データライフサイクルの操作を実行する

15

アクター/ロール(例) 活動内容(例)

・アプリケーションスペシャリスト・プラットフォームスペシャリスト・コンサルタント

・収集・準備・分析・可視化・アクセス

Page 16: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(8)

�ビッグデータ・フレームワーク・プロバイダー

特定のアプリケーションを開発するビッグデータ・アプリケーション・プロバイダーに、インフラストラクチャ・フレームワーク、データプラットフォーム、処理フレームワークを提供する

システムオーケストレーターが設定した要求事項を充足するために、データライフサイクルの操作を実行する

16

アクター/ロール(例) 活動内容(例)

・内部のクラスター・データセンター・クラウドプロバイダー

・インフラストラクチャ・フレークワーク・データプラットフォーム・フレームワーク・処理フレームワーク

Page 17: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(9)

�データ・コンシューマー

ビッグデータの出力値を受け取る*データ・プロバイダーがビッグデータ・アプリケーション・プロバイダ-に提供する機能と同じものを受け取ることが多い

17

アクター/ロール(例) 活動内容(例)

・エンドユーザー・研究者・アプリケーション・システム

・検索/取得・ダウンロード・ローカルでの分析・レポーティング・可視化

Page 18: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(10)

�マネジメント・ファブリック

ビッグデータ環境に関連するシステムおよびビッグデータのライフサイクルを管理する

18

アクター/ロール(例) 活動内容(例)

・内部スタッフ・データセンター管理・クラウドプロバイダー

・プロビジョニング・構成管理・パッケージ管理・ソフトウェア管理・バックアップ管理・キャパシティ管理・リソース管理・データ管理・パフォーマンス管理

Page 19: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(11)

�セキュリティ/プライバシー・ファブリック

ポリシー、要求事項、監査でシステム・オーケストレーターと連携し、開発、導入、運用でビッグデータ・アプリケーション・プロバイダーおよびビッグデータ・フレームワーク・プロバイダーと相互連携する

19

アクター/ロール(例) 活動内容(例)

・コーポレート・セキュリティオフィサー・セキュリティスペシャリスト

・セキュリティ/プライバシー・ポリシーの要求事項・セキュリティ/プライバシー・モニタリング

Page 20: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(12)

�ビッグデータのセキュリティ/プライバシーにおける十大脅威

20

出典:Cloud Security Alliance Big Data Working Group「Expanded Top 10 Big Data Security and Privacy Challenges」(2013年4月)を基に、日本クラウドセキュリティアライアンス・ビッグデータユーザーワーキンググループが作成(2014年5月)

Page 21: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(13)

�データ特性の階層

�データ要素

�記録

�データセット

�多重データセット

21

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 22: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(14)

�ビッグデータのユースケース(1)

22

業界 ユースケース

健康医療/ライフサイエンス(10件)

・Electronic Medical Record (EMR) Data; Shaun Grannis, Indiana University

・Pathology Imaging/digital pathology; Fusheng Wang, Emory University

・Computational Bioimaging; David Skinner, Joaquin Correa, Daniela Ushizima, Joerg

Meyer, LBNL

・Genomic Measurements; Justin Zook, NIST

・Comparative analysis for metagenomes and genomes; Ernest Szeto, LBNL (Joint

Genome Institute)

・Individualized Diabetes Management; Ying Ding, Indiana University

・Statistical Relational Artificial Intelligence for Health Care; Sriraam Natarajan,

Indiana University

・World Population Scale Epidemiological Study; Madhav Marathe, Stephen Eubank

or Chris Barrett, Virginia Tech

・Social Contagion Modeling for Planning, Public Health and Disaster Management;

Madhav Marathe or Chris Kuhlman, Virginia Tech

・Biodiversity and LifeWatch; Wouter Los, Yuri Demchenko, University of Amsterdam

Page 23: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(15)

�ビッグデータのユースケース(2)

23

業界 ユースケース

地球/環境/極地科学(10

件)

・EISCAT 3D incoherent scatter radar system; Yin Chen, Cardiff University; Ingemar Haggstrom,

Ingrid Mann, Craig Heinselman, EISCAT Science Association

・ENVRI, Common Operations of Environmental Research Infrastructure; Yin Chen, Cardiff

University

・Radar Data Analysis for CReSIS Remote Sensing of Ice Sheets; Geoffrey Fox, Indiana University,

・UAVSAR Data Processing, Data Product Delivery, and Data Services; Andrea Donnellan and Jay

Parker, NASA JPL

・NASA LARC/GSFC iRODS Federation Testbed; Brandi Quam, NASA Langley Research Center

・MERRA Analytic Services MERRA/AS; John L. Schnase & Daniel Q. Duffy, NASA Goddard Space

Flight Center

・Atmospheric Turbulence - Event Discovery and Predictive Analytics; Michael Seablom, NASA

HQ

・Climate Studies using the Community Earth System Model at DOE.s NERSC center; Warren

Washington, NCAR

・DOE-BER Subsurface Biogeochemistry Scientific Focus Area; Deb Agarwal, LBNL

・DOE-BER AmeriFlux and FLUXNET Networks; Deb Agarwal, LBNL

Page 24: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(16)

�ビッグデータのユースケース(3)

24

業界 ユースケース

商業(8件) ・Cloud Eco-System, for Financial Industries (Banking, Securities & Investments,

Insurance) transacting business within the United States; Pw Carey, Compliance

Partners, LLC

・Mendeley -- An International Network of Research; William Gunn, Mendeley

・Netflix Movie Service; Geoffrey Fox, Indiana University

・Web Search; Geoffrey Fox, Indiana University

・IaaS (Infrastructure as a Service) Big Data Business Continuity & Disaster Recovery

(BC/DR) Within A Cloud Eco-System; Pw Carey, Compliance Partners, LLC

・Cargo Shipping; William Miller, MaCT USA

・Materials Data for Manufacturing; John Rumble, R&R Data Services

・Simulation driven Materials Genomics; David Skinner, LBNL

Page 25: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(17)

�ビッグデータのユースケース(4)

25

業界 ユースケース

ディープラーニング/ソーシャルメディア(6件)

・Large-scale Deep Learning; Adam Coates, Stanford University

・Organizing large-scale, unstructured collections of consumer photos; David

Crandall, Indiana University

・Truthy: Information diffusion research from Twitter Data; Filippo Menczer,

Alessandro Flammini, Emilio Ferrara, Indiana University

・Crowd Sourcing in the Humanities as Source for Big and Dynamic Data; Sebastian

Drude, Max-Planck-Institute for Psycholinguistics, Nijmegen The Netherlands

・CINET: Cyberinfrastructure for Network (Graph) Science and Analytics; Madhav

Marathe or Keith Bisset, Virginia Tech

・NIST Information Access Division analytic technology performance measurement,

evaluations, and standards; John Garofolo, NIST

Page 26: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(18)

�ビッグデータのユースケース(5)

26

業界 ユースケース

天文/物理(5件)

・Catalina Real-Time Transient Survey (CRTS): a digital, panoramic, synoptic sky survey; S. G.

Djorgovski, Caltech

・DOE Extreme Data from Cosmological Sky Survey and Simulations; Salman Habib, Argonne

National Laboratory; Andrew Connolly, University of Washington

・Large Survey Data for Cosmology; Peter Nugent, LBNL

・Particle Physics: Analysis of LHC Large Hadron Collider Data: Discovery of Higgs particle;

Michael Ernst BNL, Lothar Bauerdick FNAL, Geoffrey Fox, Indiana University; Eli Dart, LBNL

・Belle II High Energy Physics Experiment; David Asner & Malachi Schram, PNNL

研究向けエコシステム(4件)

・DataNet Federation Consortium DFC; Reagan Moore, University of North Carolina at Chapel

Hill

・The 'Discinnet process', metadata <-> big data global experiment; P. Journeau, Discinnet Labs

・Semantic Graph-search on Scientific Chemical and Text-based Data; Talapady Bhat, NIST

・Light source beamlines; Eli Dart, LBNL

Page 27: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

1-3. NISTビッグデータ相互運用性フレームワークV1草案の概説(19)

�ビッグデータのユースケース(6)

27

業界 ユースケース

政府機関(4件)

・Census 2010 and 2000 -- Title 13 Big Data; Vivek Navale and Quyen Nguyen, NARA

・National Archives and Records Administration Accession NARA, Search, Retrieve,

Preservation; Vivek Navale & Quyen Nguyen, NARA

・Statistical Survey Response Improvement (Adaptive Design); Cavan Capps, U.S.

Census Bureau

・Non-Traditional Data in Statistical Survey Response Improvement (Adaptive

Design); Cavan Capps, U.S. Census Bureau

国防(3件) ・Large Scale Geospatial Analysis and Visualization; David Boyd, Data Tactics

・Object identification and tracking from Wide Area Large Format Imagery (WALF)

Imagery or Full Motion Video (FMV) -- Persistent Surveillance; David Boyd, Data

Tactics

・Intelligence Data Processing and Analysis; David Boyd, Data Tactics

エネルギー(1件)

・Consumption forecasting in Smart Grids; Yogesh Simmhan, University of Southern

California

Page 28: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2. データアドミニストレータの役割~仕組みと運用のバランス~

28

Page 29: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2-1. NISTビッグデータ相互運用性フレームワークから見たデータ組織・人材の要件・スキル(1)

�ビッグデータの情報フローバッチ処理とリアルタイム処理の融合へ

→「仕組みを運用でカバーする」時代の終焉

29

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 30: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2-1. NISTビッグデータ相互運用性フレームワークから見たデータ組織・人材の要件・スキル(2)

�ビッグデータで要求されるスキル専門領域+数理統計+エンジニアリング+ビジネス

30

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 31: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2-1. NISTビッグデータ相互運用性フレームワークから見たデータ組織・人材の要件・スキル(3)

�データプラットフォームの視点:ビッグデータのためのデータ・オーガニゼーション・アプローチ

�データの分類・棚卸�資産台帳�ライフサイクル管理

31

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 32: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2-2. 「データアドミニストレータ」と「データベースアドミニストレータ」【事例1】米国メディケア・メディケイドサービスセンター(CMS)

�データベースアドミニストレータの役割�CMSデータベース標準規格、ガイドライン、業務ポリシー・手順の開発・執行

�物理的ストラクチャのレビュー

�各ストラクチャに関連するパフォーマンス、メンテナンス、ユーティリティのレビュー

�必要なストレージメディアのレビュー

�SQLパフォーマンスおよびチューニングのレビュー

�アプリケーションのデータベースストラクチャへのアクセスのレビュー

�バックアップ/リカバリー戦略のレビュー

�場所に応じた消去/アーカイブの判定基準のレビュー

�データベース/サブシステムのパフォーマンス問題のモニタリング

�移行計画のレビュー

32

Page 33: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2-2. 「データアドミニストレータ」と「データベースアドミニストレータ」【事例1】米国メディケア・メディケイドサービスセンター(CMS)

�データアドミニストレータの役割�庁内プロジェクト開発の支援

�要件分析フェーズにおける論理データモデルのレビュー・承認

�開発フェーズにおける論理データモデルと第1弾の物理的データモデルの命名規則遵守状況の検証

�データガバナンスのプロセス/手順の開発への参画

�CDA標準/手順改善のためのプロジェクトとCMSマネジメントからのフィードバックの依頼とフォローアップ

�命名基準執行のための標準化されたデータ命名規則自動化ツールの発行

�新規ソフトウェア開発プロジェクトやレガシーアプリケーションの再構築を迅速に立ち上げるための、共通で再利用可能なデータオブジェクト、標準化されたデータモデリングテンプレートを含む、エンタープライズ論理データモデル(ELDM)のとりまとめ

�エンタープライズメタデータレポジトリの管理とメンテナンス

�新規/継続アプリケーション開発業務と連携したデータ/影響度分析サービス

�システムとオブジェクト間のデータ連携に向けたソースの実演

33

Page 34: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2-2. 「データアドミニストレータ」と「データベースアドミニストレータ」【事例1】米国メディケア・メディケイドサービスセンター(CMS)

�エンタープライズデータ・分析室(OEDA)�2014年11月、CMS内に設置された部署

�目的:高品質で患者中心のケアを低コストで行うために、膨大なデータリソースを有効利用して、意思決定を導くと共に、適切な外部へのアクセスとデータ利用を促進するフレームワークを開発する

�チーフ・データ・オフィサー(CDO)�新設されたOEDAの統括責任者

�役割:組織として、より透明性を高める努力の一環として、データの収集および配布における改善を監督する

34

Page 35: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2-3. 「Information」を「Innovation」に変える【事例2】シカゴ市役所のオープンデータを支える人材

�市民参加型オープンデータによるイノベーション�「Information」の時代~データ・サイエンティストとデータベース・アドミニストレータの連携

�「Innovation」の時代~データ・アドミニストレータ(チーフ・データ・オフィサーとオープンデータ・コーディネーターのチーム連携)

35

Page 36: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2-3. 「Information」を「Innovation」に変える【事例2】シカゴ市役所のオープンデータを支える人材

�シカゴ市のIT組織体制�Department of Innovation and Technology (DoIT)

�Office of the Chief Information Officer (CIO)

�Enterprise Systems

�Software Development & Application Support

�Enterprise Architecture (Chief Technology Officer)

�Technical Operations

�Information Security(Chief Information Security Officer)

�Planning, Policy & Management

�Data Science(Chief Data Officer)

�Finance and Administration

36

Page 37: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

2-3. 「Information」を「Innovation」に変える【事例2】シカゴ市役所のオープンデータを支える人材

�チーフ・データ・オフィサーの役割�市のオープンデータポリシーの導入、遵守、拡大を調整する

�市の部門間の情報共有を促進する

�データ分析を通じて、市の意思決定や運営を改善する

�チーフ・イノベーション・オフィサーに報告する

�オープンデータ・コーディネーターの役割�施策に基づき、市の機関の責務遂行を支援する

�オープンデータアドバイザリーグループを務める

�必要に応じ、施策の遂行に係る問題について、オープンデータアドバイザリーグループと会合し、討議する

�イノベーション部門のオープンデータ遵守報告書準備を支援する

37

Page 38: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3. 米国医療業界のビッグデータ・ユースケース

38

Page 39: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-1. ビッグデータのユースケース病理診断画像化/デジタル病理診断(1)

39

ユースケースの概要

アクター/ステークホルダーと役割/責任

トランスレーショナルリサーチに従事する生物医学研究者;画像誘導診断に従事する病院の医師

目標 画像から空間情報を抽出するために、パフォーマンスの高い画像分析アルゴリズムを開発し、効率的な空間のクエリ/分析を提供して、クラスタリングと分類を特徴付ける。

ユースケースの記述 デジタル病理診断画像は、高解像度の組織標本画像の検査により、新しくより効果的な疾病診断方法を可能にする成長領域である。病理診断画像分析により、細胞核、血管など、大量(画像当たり百万単位)の空間オブジェクトがセグメント化され、これらのオブジェクトから多く抽出された画像特性に沿って境界が示される。生成された情報は、生物医学研究や臨床診断の支援を目的として、大量の複雑なクエリや分析に利用される。最近、3Dレーザー技術、すなわち数多くの組織部分を連続して切り出し、それらをデジタル画像化することによって、3D病理診断画像が可能になった。

Page 40: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-1. ビッグデータのユースケース病理診断画像化/デジタル病理診断(2)

�2-Dと3-D病理診断の比較例

40

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 41: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-1. ビッグデータのユースケース病理診断画像化/デジタル病理診断(3)

�病理診断画像化/デジタル病理診断システムの全体イメージ

41

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 42: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-1. ビッグデータのユースケース病理診断画像化/デジタル病理診断(4)

�(参考)Hadoop 1.0 Stack*Hadoop自体は、バッチ処理が基本

42

出典:Cloud Security Alliance Big Data Working Group「Big Data Taxonomy」 (2014年9月)

Page 43: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-1. ビッグデータのユースケース病理診断画像化/デジタル病理診断(5)

�医療分野におけるHadoop利用の拡大とビッグデータのリスク

43

出典:Cloud Security Alliance Big Data Working Group「Big Data Analytics for Security Intelligence」 (2013年9月)

Page 44: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-1. ビッグデータのユースケース病理診断画像化/デジタル病理診断(6)

44

現行のソリューション

計算処理システム スーパーコンピューター;クラウド

ストレージ SANまたはHDFS

ネットワーク 高度な外部ネットワークとの接続が必要

ソフトウェア 画像解析用MPI;MapReduce + 空間拡張付Hive

ビッグデータの特性データソース(分散型/集中型)

人間の細胞組織からデジタル化した病理画像

容量(規模)1GBのRAW画像データ + 1.5GBの2Dによる分析結果; 1TBのRAW

画像データ + 1TBの3D画像による分析結果。中程度の病院で年間1PBのデータ

速度(例.リアルタイム) 一度生成されたら、データは変更されない

種類(複数のデータセット、マッシュアップ)

画像の特徴や分析は疾病の種類に依存する

可変性(変更の度合) 変更なし

Page 45: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-1. ビッグデータのユースケース病理診断画像化/デジタル病理診断(7)

45

ビッグデータの課題ビッグデータ固有の課題(ギャップ)

超大容量;多次元;疾病固有の分析;他のデータタイプ(例.臨床データ)との相関関係

モビリティにおけるビッグデータ固有の課題

モバイルプラットフォーム上での3D病理診断画像の3D可視化が想定されていない

セキュリティ/プライバシー要件

保護対象保健情報(PHI)を保護しなければならない;公的データを匿名化しなければならない

本ユースケース策定のための大きな課題

画像データ;多次元空間データ分析

ビッグデータサイエンス(収集、キュレーション、分析、行動)

正確さ(堅牢性の問題) 人間の注釈付けにより検証された質の高い結果が不可欠

可視化 検証とトレーニングのために必要

データ品質組織断片の前処理(例.化学染色)や画像分析アルゴリズムの品質に依存する

データのタイプRAW画像は断片画像全体(大抵の場合BIGTIFF準拠)で、分析結果は構造化データ(空間的境界および特性)

データ分析 画像解析、空間的クエリ/分析、クラスタリング/分類機能

Page 46: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-2. ビッグデータとリアルタイムセキュリティ(例)Hadoopのセキュリティ監視/分析(1)

�NISTビッグデータ・リファレンス・アーキテクチャの全体像(前掲)

46

出典:NIST Big Data interoperability Framework Version 1.0 Working Drafts. (2015年4月)

Page 47: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-2. ビッグデータとリアルタイムセキュリティ(例)Hadoopのセキュリティ監視/分析(2)

�クラウド環境で稼働するHadoopクラスタのセキュリティ監視/分析をリアルタイムで行う際の留意点

47

留意項目 具体的な例 NISTフレームワークでの役割/ロール

パブリッククラ ウ ド の セキュリティ

クラウドのエコシステムを構成するサーバー、ストレージ、ネットワークのセキュリティ

ビ ッグデー タ ・ フレームワーク・プロバイダー

Hadoopクラスタのセキュリティ

ノードのセキュリティ、ノードの相互接続、ノードの保存データのセキュリティ

ビ ッグデー タ ・ フレームワーク・プロバイダー

モニタリングア プ リ ケ ーシ ョ ン の セキュリティ

モニタリングする相互関係のルール、セキュアコーディング

ビッグデータ・アプリケーション・プロバイダー

データの入力ソ ー ス の セキュリティ

ソース(デバイス、センサーなど)からのデータ収集のセキュア化、アクセスログ/メタデータの生成/管理、アクセス権限のルール

データ ・プロバイダー

Page 48: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-2. ビッグデータとリアルタイムセキュリティ(例)Hadoopのセキュリティ監視/分析(3)

�HadoopクラスタにおけるMapperのセキュリティ脅威

48

ケース 脅威(例)

Workerノードの誤

作動による計算処理

分散処理でMapperに割り当てられたWorkerノードが不正

確な構成や障害ノードにより、誤作動を起こす可能性がある。また、Workerが修正されて、ユーザーの機密データが漏えいする可能性がある。

インフラストラクチャ攻撃

危険にさらされたWorkerノードは、他のWorkerと再生を目的とするMasterや中間者、MapReduceの処理に対するDoS攻撃との間の通信を傍受する可能性がある。

偽のデータノード 偽のデータノードがクラスタに追加されて、その後、複製されたデータを受信したり、変更されたMapReduceコードを配布したりする可能性がある。

Page 49: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-2. ビッグデータとリアルタイムセキュリティ(例)Hadoopのセキュリティ監視/分析(4)

�HadoopクラスタにおけるMapperのセキュリティ対策

�並列分散処理のプロセス全体におけるMapperの信頼性を保証する

�強制アクセス制御(MAC:Mandatory access control)を利用し、セキュリティポリシーに基づき認証されたファイルへのアクセスを保証する

�Mapper出力からの情報漏えいによるプライバシー/個人情報保護違反を防止するために、データ匿名化技術の機能を強化する

49

MACやデータ匿名化技術の負荷が、処理のパフォーマンスに影響を及ぼす可能性がある

Page 50: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-2. ビッグデータとリアルタイムセキュリティ(例)Hadoopのセキュリティ監視/分析(5)

�Hadoop向けのリアルタイムセキュリティ監視/分析ツール

�Hadoop自体にはツールが組み込まれていない

�各ベンダー/プロバイダーが提供するツールの導入

�Hadoopの要求をモニタリングする機能を持ったフロントエンドシステムの導入

�Hadoopは元々バッチ処理をベースとして開発された技術⇒リアルタイム化のための対応手段が必要

�米国NIST「セキュリティ設定共通化手順(SCAP)」

�リアルタイム分散処理システム「Apache Storm」

�メッセージングシステム「Apache Kafka」 など

50

Page 51: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

3-2. ビッグデータとリアルタイムセキュリティ(例)Hadoopのセキュリティ監視/分析(6)

�今後の課題:「Hadoop 2.0」、「Apache Spark」への対応

�インフラ/プラットフォーム寄りからの標準化されたセキュリティ対策への期待

51

出典:Cloud Security Alliance Big Data Working Group「Big Data Taxonomy」 (2014年9月)

Page 52: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

4. まとめ/Q&A

52

Page 53: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

4-1. データベース管理者からデータ資産管理者への脱皮

�日本のデータベース人材と属人的運用の限界・・・バッチ処理とリアルタイム処理の狭間・・・

53

運用仕組み

CIOCDO・・・

ユーザー部門外部委託先クラウド事業者・・・

Page 54: 20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化-

4-2. 国境を超えるオープンイノベーションの波への対応

�(例)米国医療行政機関の変革

�FDA~「OpenFDA」で、医薬品表示・副作用等に係るデータ等を逐次公開�CMS~メディケア・メディケイドの医療データを民間セクターやスタートアップ企業に公開

54