Upload
hadoop-conference-japan
View
2.621
Download
1
Embed Size (px)
DESCRIPTION
■Hadoop Confernce Japan 2014講演資料 https://hcj2014.eventbrite.com/ 『Mahoutによるアルツハイマー診断支援へ向けた取り組み』 髙田 正彬 (新日鉄住金ソリューションズ)
Citation preview
Mahoutによる アルツハイマー診断支援へ向けた取り組み Hadoop Conference Japan 2014 (2014/07/08)
新日鉄住金ソリューションズ株式会社 髙田 正彬
Data Science & Infrastructure Technologies, Systems R&D Center
自己紹介 髙田 正彬(たかだ まさあき) 所属:新日鉄住金ソリューションズ(株)
システム研究開発センター データ分析・基盤研究部 専門分野:機械学習、統計、分散システム 業務内容:社内データの分析、Hadoopの検証など
2 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
本日の内容 1. 弊社におけるビッグデータへの取り組み 2. アルツハイマー病診断支援へ向けて
i. 取り組みの背景 ii. 医療画像データの解析手法 iii. 解析結果
3 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
弊社におけるビッグデータへの取り組み
Data Science & Infrastructure Technologies, Systems R&D Center
新日鉄住金ソリューションズ 経営とシステムの全体最適をめざす システムライフサイクル・トータルソリューション
業務系ソリューション 産業 流通・サービス 金融 社会・公共 鉄鋼 テレコミュニケーション
基盤系ソリューション パブリッククラウド・サービス プライベートクラウド構築 統合基盤エンジニアリング プロダクトソリューション
ビジネスサービス システム運用 データセンター・サービス アプリケーション・サービス アウトソーシング・サービス プロダクトサポート
研究開発・ 新ソリューション推進
システム研究開発 ソフトウェア開発 クラウドサービスビジネス
エンベデッド・ユビキタスシステム 環境・エネルギーソリューション IFRSソリューション
システム・インフラ インフラ統合基盤 アプリケーション統合基盤 共通システム・
ユーティリティ基盤
業務アプリケーション
サービス
構築 運用・保守
ITコンサル
5 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
弊社におけるデータ利活用の取り組み
6
データマイニング データ分析、モデル構築、マーケティング戦略など 情報活用のコンサルティングノウハウ
DWH / BI 大規模DWHシステム、BIツール・統計解析ツール技術 先端アプリケーション(ナレッジ・最適化など)に関する技術
最適化 統計解析
•顧客行動データに基づく、セグメンテーションやプロモーション(顧客戦略の高度化)
•通信やログデータに基づく、解約防止の顧客戦略や障害事前検知のサービス品質向上
•販売動向や品質情報のデータ解析・因子特定に基づく、生産プロセス最適化への応用
•大量データの統計処理とデータ・テキストマイニング
通販 通信 製造 社会・公共
•医療画像データによるアルツハイマー診断支援
医療
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
弊社におけるHadoopの取り組み
'09 '11 ’06
MapReduce 論文を発表
Hadoop誕生
MapR Technologies設立
'13 '12 '14
Hadoop実運用
認定販売代理店として Cloudera社と提携 Hadoopを研究対象に採用
Hadoop アプリケーションの製作
Cloudera設立
Hortonworks設立
国内販売パートナーとしてMapR社と提携
他社との共同検証による 実業務適用検討を複数実施 HCJ 2013 Winter
にて講演
7
弊社の取り組み
Hadoop界隈の動向
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
アルツハイマー病診断支援へ向けて
取り組みの背景
Data Science & Infrastructure Technologies, Systems R&D Center
取り組みの背景 本研究は、NEDO(独立行政法人 新エネルギー・産業技術総合開発機構)の「脳画像・臨床・ITによるアルツハイマー病(AD)超早期診断と先制医療の実現」プロジェクトの一環で実施。
9
IT融合による新社会システムの開発・実証プロジェクト
脳画像・臨床・ITによる アルツハイマー病超早期診断と先制医療の実現
J-ADNI2 臨床研究
画像技術 開発研究
臨床研究クラウドサービスの 構築と評価
多様なデータの管理・整理、データ分析・解析、研究者間のコミュニケーションをITにより加速・支援するために以下を行う。 【役割1】 臨床研究クラウドサービス構築 ⇒別チームで実施 【役割2】 超早期診断支援のための検証 ⇒今回の内容
新日鉄住金ソリューションズ㈱の担当
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
役割1:臨床研究クラウドサービスの構築
10
コミュニティサービス
データセンターや研究コア
Com
bin
ed
DataB
ase
(CDB
)
DIC
OM
サーバ
大学病院など全国40施設
被験者登録
検査予約登録
用紙検査結果登録
PET検査 PET検査結果登録
MRI検査MRI検査結果登録
生化学検査 生化学検査結果登録
問題
申請登録
用紙検査
参加希望者
RDBMS(PostgreSQL)RDBMS(PostgreSQL)
ファイル保存ディレクトリ
Webアプリケーション(RedmineのカスタマイズやPlug-in開発)
Webアプリケーション(Javaスクラッチ開発)
DICOM連携API
RDBMS(PostgreSQL)RDBMS(PostgreSQL)
ファイル保存ディレクトリ
用紙QC PET QC MRI QC 申請確認 資材受注登録マスタ登録文書登録用紙検査
結果情報QC承認 QC承認
申請情報
QC承認 承認
用紙検査情報
PET撮像データ
MRI撮像データ
生化学検査情報
申請情報
疑義事項問合せ
参加します
用紙検査結果情報
PET検査結果情報
MRI検査結果情報
生化学検査結果情報
申請結果情報
用紙検査結果情報 PET検査結果情報
MRI検査結果情報 生化学検査結果情報
申請結果情報
被験者情報検査予実情報
資材受発注情報
被験者情報検査実績情報
用紙検査結果データPET・MRI撮像データ
PET検査結果データMRI検査結果データ
生化学検査結果データ申請結果データ
各種検査結果データ
各種検査結果データ
研究進捗データ
検査結果が承認されると
Excelのデータをパースして
RDBMSに格納
撮像データは被験者情報を匿名化してDICOMサーバに登録される
資材発注登録
資材発注情報
PET画像
MRI画像
臨床検査 DNA情報
CRF 心理テスト
研究者 品質管理者
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
データ保管 管理システム データ品質
管理システム
データの共有により 臨床研究を促進
Data Science & Infrastructure Technologies, Systems R&D Center
役割2:超早期診断支援のための検証 AD超早期診断支援のコアとなる機械学習アルゴリズムを検証 大量データ・多変量データに対応できる手法を利用 複数モダリティのデータを合成して判別精度を向上できるか検証
11
医師
MRIデータ
PETデータ
判別結果
統計情報
機械学習
AD超早期診断の支援
モダリティ
⇒今回ご紹介します
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
アルツハイマー病(AD: Alzheimer’s Disease)
症状 神経細胞が脱落し、脳が萎縮する。 記憶力の低下や人格の変化などを
引き起こす。
規模 日本の認知症患者は約300万人。 認知症患者の大半がADであると
言われている。 社会的費用は10兆円を超える。
特徴 進行により不可逆的に神経細胞が変性。
そのため、超早期診断が必要である。 12
引用)アルツハイマー病についての情報とリソース alz.org http://www.alz.org/asian/about/inside_the_brain.asp?nL=JA&dL=JA
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
本研究のゴール
13
引用)超早期アルツハイマー病の指標 づくりを目指す臨床研究 J-ADNI2 http://www.j-adni2.org/guide.html
予防・治療しやすい 診断しやすい 診断の
特徴
今回のターゲット 将来的なターゲット
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
アルツハイマー病診断支援へ向けて
医療画像データの解析手法
Data Science & Infrastructure Technologies, Systems R&D Center
本研究の概要
15
MRIデータとPETデータに対して、Mahoutを用いて機械学習を行い、ADかどうかを判別する。
検証対象
MRIデータ 判別結果 健常 or AD
機械学習 前処理
PETデータ
加工済 MRIデータ
加工済 PETデータ
環境:ローカル 分析ツール:Matlab
環境:Hadoop 分析ツール:Mahout
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
Mahoutとは 機械学習のHadoopエコシステム 機械学習:人間が学習するような機構をコンピュータ上で実現させる技術 OSSでJavaライブラリのみを提供
スケーラブルなライブラリ 多くのアルゴリズムがHadoop上で動作するためスケーラブル データサイズが巨大な場合や、独立な計算処理量が膨大な場合に有効
16
Hadoop
Hive SQL的操作
Pig 手続き的操作
Impala 低レイテンシSQL
HBase リアルタイムDB
Hue 操作GUI
Mahout 機械学習
Sqoop RDBとの連携
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
分類 実装アルゴリズム ※掲載アルゴリズムは一部
活用例 ※マーケティングの例
判別分析 Random Forest Naïve Bayes Logistic Regression * Hidden Markov Models * Multilayer Perceptron *
顧客の行動履歴を基に、退会するか否かを予測し、施策を打つ
クラスタリング Canopy Clustering K-Means Spectral Clustering
顧客を予めグループ分類し、施策対象を重要顧客に絞り込む
レコメンド User-Based Collaborative Filtering Item-Based Collaborative Filtering
別の顧客行動を基に、顧客が興味を持ちやすい商品を提示する
その他 SVD Lanczos Algorithm LDA
顧客を特徴づける要因を集約する、など
Mahoutで実装されているアルゴリズム
17
* MapReduce非対応アルゴリズム
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
データ種別 MRI 核磁気共鳴現象を利用した検査法。 脳の構造・形態を見ることができる。
PET 陽電子検出を利用した検査法。 脳の代謝量や血流量などの生体の機能を見ることができる。
18
本ページの画像は以下より引用) Chris Hinrichs et al., “Predictive Markers for AD in a Multi-Modality Framework: An Analysis of MCI Progression in the ADNI Population,” 2010.
MRIとPETでは異なる 特性が検出できる
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
データ対象者 健常者、AD患者それぞれ30人分のデータを利用
19
健常者MRI
健常者PET
AD患者MRI
AD患者PET
利用データ
×健常者30人
×AD患者30人
本ページの画像は以下より引用) Chris Hinrichs et al., “Predictive Markers for AD in a Multi-Modality Framework: An Analysis of MCI Progression in the ADNI Population,” 2010.
利用データは近畿大学・石井一成教授より受領
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
前処理の流れ
20
Matlabで実行
正規化
標準脳にフィッティングさせ、 脳の個体差をなくす
平滑化
半値幅8mmのガウシアン フィルタでスムージング
MRIデータ
PETデータ
加工済 MRIデータ
加工済 PETデータ
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
機械学習の流れ
21
Mahout で実行
モデル化
評価
加工済 MRIデータ
加工済 PETデータ
判別結果
モデル
複数モダリティの機械学習
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
複数モダリティを用いたAD判別手法
22
複数モダリティを利用した様々なAD判別手法が提案されている。
論文 モダリティ 手法 精度 Hinrichs et al., 2010
MRI, PET, CSF, APOE, cognitive scores
Multi-Kernel SVM 92.4
Zhang et al., 2011
MRI, PET, CSF Multi-Kernel SVM 93.2
Gray et al., 2012 MRI, PET, CSF, APOE 次元縮約 + Random Forest
89.0
本研究ではRandom Forest(RF)を利用する。
次元縮約によって 情報量が落ちている
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
なぜRandom Forestを使うか
23
理由1:一般に、RFは精度が高い。 横断的なアルゴリズムの性能比較により、平均的にRFが
最もよいことが分かっている。(Caruana et al., 2008)
理由2:RFは分散処理可能で、処理時間を短縮できる。 医療データは今後データ量が増大していくことが予想される。 MahoutにRFが実装されており、分散処理される。
比較アルゴリズム ANN, Logistic Regression, Naïve Bayes, KNN, SVM, Boosting, Random Forest, Bagged Decision Trees, Perceptron
使用データセット Sturn, Calam, Digits, Tis, Cryst, KDD98, R-S, Cite, Dse, Spam, Imdb
精度指標 精度, AUC, 二乗誤差
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
多数の決定木を構築する手法 個々の決定木にランダム性を組込み、高い汎化性能を実現
Random Forestとは
特徴量D>1
特徴量K>10
特徴量T<5
○ × ○ ×
決定木 Random Forest
○:AD患者 ×:健常者
24
ノード
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
MahoutのRandom Forest
25
Map
… モデル(Random
Forest
) …
トレーニングデータ
データを 分割配布
Map
復元抽出
決定木作成
パラメータ1
データ分割数 パラメータ2
決定木の本数 ※Partialモードでの動作
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
複数モダリティのRF(Grayらの手法) MRI
subject1 subject2
…
feature1 feature2 PET MRI+PET
+ 結合
Reduced MRI
Reduced PET
+
Reduced MRI+PET
精度=86.2
結合
精度=89.0
次元縮約
[Gray et al., 2012]
[Gray et al., 2012]
RF
RF
26
※ここで精度はAccuracyを指す。
データ結合モデル
縮約データ結合モデル
精度=81.6 精度=86.0 [Gray et al., 2012] [Gray et al., 2012]
RF RF
MRIモデル PETモデル
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
複数モダリティのRF(今回検証する手法) MRI
subject1 subject2
…
feature1 feature2 PET MRI+PET
+ 結合
RF
RF RF
27
MRIモデル PETモデル
データ結合モデル
+ 合成
モデル合成
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
検証① 検証②
検証③
検証④
アルツハイマー病診断支援へ向けて
解析結果
Data Science & Infrastructure Technologies, Systems R&D Center
当社の検証環境(NSCCC)を利用。 Hadoop上でMahoutを利用。
環境
Hardware 構成 Server IBM BladeCenter HS21 Slave 13nodes OS RHEL 6.5 (64bit) CPU Intel Xeon CPU 5130 2.0GHz x4cores x2 Mem 8GB HDD 36GB x13
Master Slave
Sofware バージョン Hadoop cdh-4.5.0 Mahout mahout-0.7 R R-3.0.2
29 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
本研究では、(AD患者,健常者)×(陽性,陰性)の人数をa,b,c,dとして、 以下のような既存研究同様の精度指標を用いる。
精度指標
30
陽性 陰性 AD患者 a b 健常者 c d 指標 定義 意味 Accuracy 正確度
Acc = (a+d)/(a+b+c+d) 正解率
Basic Accuracy 基本正確度
Bacc = (Sens+Spec)/2 感度と特異度の平均
Sensitivity 感度
Sens = a/(a+b) 実際の患者のうち、どの程度陽性と判定できたか
Specificity 特異度
Spec = d/(c+d) 健常者のうち、どの程度陰性と判定できたか
※指標はCross Validationで計算する。 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
再掲:検証の全体像
31
MRI subject1 subject2
…
feature1 feature2 PET
検証① 検証②
MRI+PET
+ 結合
検証③
RF
RF RF
MRIモデル PETモデル
データ結合モデル
+ 合成
検証④ モデル合成
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
検証①:MRIモデルのAD判別
70.075.080.085.090.095.0
100.0
10 20 50 100 200 500 1000 2000 5000 10000
精度
(%)
決定木の本数
Acc
Bacc
Sens
Spec
70.075.080.085.090.095.0
100.0
1 2 3 4 5
精度
(%)
データ分割数
Acc
Bacc
Sens
Spec
※データ分割数は3で固定
※決定木の本数は2000で固定
32
Acc=80.8%
データ分割数はあまり影響しない
決定木200本以上で精度が安定
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
検証②:PETモデルのAD判別
70.075.080.085.090.095.0
100.0
10 20 50 100 200 500 1000 2000 5000 10000
精度
(%)
決定木の本数
Acc
Bacc
Sens
Spec
70.075.080.085.090.095.0
100.0
1 2 3 4 5
精度
(%)
データ分割数
Acc
Bacc
Sens
Spec
33
※データ分割数は3で固定
※決定木の本数は2000で固定
Acc=86.7%
決定木200本以上で精度が安定
データ分割数は少ないほうが若干よい
MRIよりも精度が高い
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
検証③:MRI,PETデータ結合モデルのAD判別
34
70.075.080.085.090.095.0
100.0
10 20 50 100 200 500 1000 2000 5000 10000
精度
(%)
決定木の本数
Acc
Bacc
Sens
Spec
70.075.080.085.090.095.0
100.0
1 2 3 4 5
精度
(%)
データ分割数
Acc
Bacc
Sens
Spec
決定木200本以上で精度が安定
Acc=90.8%
※データ分割数は3で固定
※決定木の本数は2000で固定
データ分割数はあまり影響しない
MRI,PET単体よりも精度が高い
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
検証④:MRI,PETモデル合成のAD判別
70.0
75.0
80.0
85.0
90.0
95.0
100.0
0.0:
1.0
0.1:
0.9
0.2:
0.8
0.3:
0.7
0.4:
0.6
0.5:
0.5
0.6:
0.4
0.7:
0.3
0.8:
0.2
0.9:
0.1
1.0:
0.0
精度
(%)
決定木の本数のPET:MRI比率
Acc
Bacc
Sens
Spec
※MRI, PETともに以下の パラメータでモデル化 ・決定木の本数:2000 ・データ分割数:1
35
Acc=91.7% MRIとPETのモデル合成により 精度が向上する
MRI PET
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
81.6 86 86.2
89
81.8 86 87.1 89
79.8
86.8 85.1 87.9
83.8 85.1 86.1 90
7580859095
100AccBaccSensSpec
複数のモダリティを利用することで精度が向上した。 モデル合成は複数モダリティの機械学習に有効である。
検証結果
[参考]Gray et al., 2012の結果
本検証
36
80.8 86.7
90.8 91.7
82.1 87.5
91.5 92.2
85 90
93.3 95
79.2 85.1
89.7 89.3
7580859095
100AccBaccSensSpec
①MRI ②PET ③MRI+PET (データ結合)
④MRI+PET (モデル合成)
MRI PET MRI+PET
(データ結合) MRI+PET
(縮約+データ結合)
精度
精
度
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
分析ツールとしてのMahoutの可能性
37
• 大量データ・多変量データのモデリングができる
• モデルを組み合わせることで高精度化を実現できる
メリット
• JavaやHadoopの知識が必要
• アドホックな分析は不得意
デメリット
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
• 現時点ではRやRDBを併用することでカバー • 今後のSpark Bindingに期待
Data Science & Infrastructure Technologies, Systems R&D Center
RFによる特徴部位の抽出 RFモデルにおいて、上位ノードに頻出する特徴量は、 判別におけるAD特徴部位と解釈できる。
38
→ が重要な特徴量であると解釈できる。
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
MRIデータにおけるAD特徴部位 上から見た図
海馬
39
左から見た図
ADによる構造的変化が海馬周辺に現れている。
決定木に多く 現れる部位
決定木にほとんど 現れない部位
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
PETデータにおけるAD特徴部位
内包
後部帯状回
40
ADによる代謝量変化が後部帯状回に現れている。
上から見た図 左から見た図
決定木に多く 現れる部位
決定木にほとんど 現れない部位
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center
まとめ Mahoutを用いてAD判別を実施した。 複数のモダリティを合成することで精度が向上した。 モデルから得られた特徴部位は医学的知見と合致した。
今後の展望 軽度認知障害、プレクリニカルAD
の判別に本手法を適用する。 他のモダリティを追加し、
精度向上を図る。 脳脊髄液(CSF)成分の追加 遺伝子情報の追加
超早期診断支援のシステム化
まとめと今後の展望
41
引用)超早期アルツハイマー病の指標 づくりを目指す臨床研究 J-ADNI2 http://www.j-adni2.org/guide.html
今後のターゲット
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.
Data Science & Infrastructure Technologies, Systems R&D Center 42
NS(ロゴ), NSSOL, NS Solutions, その他弊社サービスは、 新日鉄住金ソリューションズ株式会社の登録商標です。
その他本文記載の会社名及び製品名は、 それぞれ各社の商標または登録商標です。
ご清聴、ありがとうございました。
Copyright © 2014 NS Solutions Corporation, All Rights Reserved.