42
Mahoutによる アルツハイマー診断支援へ向けた取り組み Hadoop Conference Japan 2014 2014/07/08新日鉄住金ソリューションズ株式会社 髙田 正彬

Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Embed Size (px)

DESCRIPTION

■Hadoop Confernce Japan 2014講演資料 https://hcj2014.eventbrite.com/ 『Mahoutによるアルツハイマー診断支援へ向けた取り組み』 髙田 正彬 (新日鉄住金ソリューションズ)

Citation preview

Page 1: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Mahoutによる アルツハイマー診断支援へ向けた取り組み Hadoop Conference Japan 2014 (2014/07/08)

新日鉄住金ソリューションズ株式会社 髙田 正彬

Page 2: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

自己紹介 髙田 正彬(たかだ まさあき) 所属:新日鉄住金ソリューションズ(株)

システム研究開発センター データ分析・基盤研究部 専門分野:機械学習、統計、分散システム 業務内容:社内データの分析、Hadoopの検証など

2 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 3: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

本日の内容 1. 弊社におけるビッグデータへの取り組み 2. アルツハイマー病診断支援へ向けて

i. 取り組みの背景 ii. 医療画像データの解析手法 iii. 解析結果

3 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 4: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

弊社におけるビッグデータへの取り組み

Page 5: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

新日鉄住金ソリューションズ 経営とシステムの全体最適をめざす システムライフサイクル・トータルソリューション

業務系ソリューション 産業 流通・サービス 金融 社会・公共 鉄鋼 テレコミュニケーション

基盤系ソリューション パブリッククラウド・サービス プライベートクラウド構築 統合基盤エンジニアリング プロダクトソリューション

ビジネスサービス システム運用 データセンター・サービス アプリケーション・サービス アウトソーシング・サービス プロダクトサポート

研究開発・ 新ソリューション推進

システム研究開発 ソフトウェア開発 クラウドサービスビジネス

エンベデッド・ユビキタスシステム 環境・エネルギーソリューション IFRSソリューション

システム・インフラ インフラ統合基盤 アプリケーション統合基盤 共通システム・

ユーティリティ基盤

業務アプリケーション

サービス

構築 運用・保守

ITコンサル

5 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 6: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

弊社におけるデータ利活用の取り組み

6

データマイニング データ分析、モデル構築、マーケティング戦略など 情報活用のコンサルティングノウハウ

DWH / BI 大規模DWHシステム、BIツール・統計解析ツール技術 先端アプリケーション(ナレッジ・最適化など)に関する技術

最適化 統計解析

•顧客行動データに基づく、セグメンテーションやプロモーション(顧客戦略の高度化)

•通信やログデータに基づく、解約防止の顧客戦略や障害事前検知のサービス品質向上

•販売動向や品質情報のデータ解析・因子特定に基づく、生産プロセス最適化への応用

•大量データの統計処理とデータ・テキストマイニング

通販 通信 製造 社会・公共

•医療画像データによるアルツハイマー診断支援

医療

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 7: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

弊社におけるHadoopの取り組み

'09 '11 ’06

MapReduce 論文を発表

Hadoop誕生

MapR Technologies設立

'13 '12 '14

Hadoop実運用

認定販売代理店として Cloudera社と提携 Hadoopを研究対象に採用

Hadoop アプリケーションの製作

Cloudera設立

Hortonworks設立

国内販売パートナーとしてMapR社と提携

他社との共同検証による 実業務適用検討を複数実施 HCJ 2013 Winter

にて講演

7

弊社の取り組み

Hadoop界隈の動向

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 8: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

アルツハイマー病診断支援へ向けて

取り組みの背景

Page 9: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

取り組みの背景 本研究は、NEDO(独立行政法人 新エネルギー・産業技術総合開発機構)の「脳画像・臨床・ITによるアルツハイマー病(AD)超早期診断と先制医療の実現」プロジェクトの一環で実施。

9

IT融合による新社会システムの開発・実証プロジェクト

脳画像・臨床・ITによる アルツハイマー病超早期診断と先制医療の実現

J-ADNI2 臨床研究

画像技術 開発研究

臨床研究クラウドサービスの 構築と評価

多様なデータの管理・整理、データ分析・解析、研究者間のコミュニケーションをITにより加速・支援するために以下を行う。 【役割1】 臨床研究クラウドサービス構築 ⇒別チームで実施 【役割2】 超早期診断支援のための検証 ⇒今回の内容

新日鉄住金ソリューションズ㈱の担当

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 10: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

役割1:臨床研究クラウドサービスの構築

10

コミュニティサービス

データセンターや研究コア

Com

bin

ed

DataB

ase

(CDB

DIC

OM

サーバ

大学病院など全国40施設

被験者登録

検査予約登録

用紙検査結果登録

PET検査 PET検査結果登録

MRI検査MRI検査結果登録

生化学検査 生化学検査結果登録

問題

申請登録

用紙検査

参加希望者

RDBMS(PostgreSQL)RDBMS(PostgreSQL)

ファイル保存ディレクトリ

Webアプリケーション(RedmineのカスタマイズやPlug-in開発)

Webアプリケーション(Javaスクラッチ開発)

DICOM連携API

RDBMS(PostgreSQL)RDBMS(PostgreSQL)

ファイル保存ディレクトリ

用紙QC PET QC MRI QC 申請確認 資材受注登録マスタ登録文書登録用紙検査

結果情報QC承認 QC承認

申請情報

QC承認 承認

用紙検査情報

PET撮像データ

MRI撮像データ

生化学検査情報

申請情報

疑義事項問合せ

参加します

用紙検査結果情報

PET検査結果情報

MRI検査結果情報

生化学検査結果情報

申請結果情報

用紙検査結果情報 PET検査結果情報

MRI検査結果情報 生化学検査結果情報

申請結果情報

被験者情報検査予実情報

資材受発注情報

被験者情報検査実績情報

用紙検査結果データPET・MRI撮像データ

PET検査結果データMRI検査結果データ

生化学検査結果データ申請結果データ

各種検査結果データ

各種検査結果データ

研究進捗データ

検査結果が承認されると

Excelのデータをパースして

RDBMSに格納

撮像データは被験者情報を匿名化してDICOMサーバに登録される

資材発注登録

資材発注情報

PET画像

MRI画像

臨床検査 DNA情報

CRF 心理テスト

研究者 品質管理者

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

データ保管 管理システム データ品質

管理システム

データの共有により 臨床研究を促進

Page 11: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

役割2:超早期診断支援のための検証 AD超早期診断支援のコアとなる機械学習アルゴリズムを検証 大量データ・多変量データに対応できる手法を利用 複数モダリティのデータを合成して判別精度を向上できるか検証

11

医師

MRIデータ

PETデータ

判別結果

統計情報

機械学習

AD超早期診断の支援

モダリティ

⇒今回ご紹介します

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 12: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

アルツハイマー病(AD: Alzheimer’s Disease)

症状 神経細胞が脱落し、脳が萎縮する。 記憶力の低下や人格の変化などを

引き起こす。

規模 日本の認知症患者は約300万人。 認知症患者の大半がADであると

言われている。 社会的費用は10兆円を超える。

特徴 進行により不可逆的に神経細胞が変性。

そのため、超早期診断が必要である。 12

引用)アルツハイマー病についての情報とリソース alz.org http://www.alz.org/asian/about/inside_the_brain.asp?nL=JA&dL=JA

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 13: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

本研究のゴール

13

引用)超早期アルツハイマー病の指標 づくりを目指す臨床研究 J-ADNI2 http://www.j-adni2.org/guide.html

予防・治療しやすい 診断しやすい 診断の

特徴

今回のターゲット 将来的なターゲット

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 14: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

アルツハイマー病診断支援へ向けて

医療画像データの解析手法

Page 15: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

本研究の概要

15

MRIデータとPETデータに対して、Mahoutを用いて機械学習を行い、ADかどうかを判別する。

検証対象

MRIデータ 判別結果 健常 or AD

機械学習 前処理

PETデータ

加工済 MRIデータ

加工済 PETデータ

環境:ローカル 分析ツール:Matlab

環境:Hadoop 分析ツール:Mahout

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 16: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

Mahoutとは 機械学習のHadoopエコシステム 機械学習:人間が学習するような機構をコンピュータ上で実現させる技術 OSSでJavaライブラリのみを提供

スケーラブルなライブラリ 多くのアルゴリズムがHadoop上で動作するためスケーラブル データサイズが巨大な場合や、独立な計算処理量が膨大な場合に有効

16

Hadoop

Hive SQL的操作

Pig 手続き的操作

Impala 低レイテンシSQL

HBase リアルタイムDB

Hue 操作GUI

Mahout 機械学習

Sqoop RDBとの連携

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 17: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

分類 実装アルゴリズム ※掲載アルゴリズムは一部

活用例 ※マーケティングの例

判別分析 Random Forest Naïve Bayes Logistic Regression * Hidden Markov Models * Multilayer Perceptron *

顧客の行動履歴を基に、退会するか否かを予測し、施策を打つ

クラスタリング Canopy Clustering K-Means Spectral Clustering

顧客を予めグループ分類し、施策対象を重要顧客に絞り込む

レコメンド User-Based Collaborative Filtering Item-Based Collaborative Filtering

別の顧客行動を基に、顧客が興味を持ちやすい商品を提示する

その他 SVD Lanczos Algorithm LDA

顧客を特徴づける要因を集約する、など

Mahoutで実装されているアルゴリズム

17

* MapReduce非対応アルゴリズム

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 18: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

データ種別 MRI 核磁気共鳴現象を利用した検査法。 脳の構造・形態を見ることができる。

PET 陽電子検出を利用した検査法。 脳の代謝量や血流量などの生体の機能を見ることができる。

18

本ページの画像は以下より引用) Chris Hinrichs et al., “Predictive Markers for AD in a Multi-Modality Framework: An Analysis of MCI Progression in the ADNI Population,” 2010.

MRIとPETでは異なる 特性が検出できる

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 19: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

データ対象者 健常者、AD患者それぞれ30人分のデータを利用

19

健常者MRI

健常者PET

AD患者MRI

AD患者PET

利用データ

×健常者30人

×AD患者30人

本ページの画像は以下より引用) Chris Hinrichs et al., “Predictive Markers for AD in a Multi-Modality Framework: An Analysis of MCI Progression in the ADNI Population,” 2010.

利用データは近畿大学・石井一成教授より受領

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 20: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

前処理の流れ

20

Matlabで実行

正規化

標準脳にフィッティングさせ、 脳の個体差をなくす

平滑化

半値幅8mmのガウシアン フィルタでスムージング

MRIデータ

PETデータ

加工済 MRIデータ

加工済 PETデータ

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 21: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

機械学習の流れ

21

Mahout で実行

モデル化

評価

加工済 MRIデータ

加工済 PETデータ

判別結果

モデル

複数モダリティの機械学習

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 22: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

複数モダリティを用いたAD判別手法

22

複数モダリティを利用した様々なAD判別手法が提案されている。

論文 モダリティ 手法 精度 Hinrichs et al., 2010

MRI, PET, CSF, APOE, cognitive scores

Multi-Kernel SVM 92.4

Zhang et al., 2011

MRI, PET, CSF Multi-Kernel SVM 93.2

Gray et al., 2012 MRI, PET, CSF, APOE 次元縮約 + Random Forest

89.0

本研究ではRandom Forest(RF)を利用する。

次元縮約によって 情報量が落ちている

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 23: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

なぜRandom Forestを使うか

23

理由1:一般に、RFは精度が高い。 横断的なアルゴリズムの性能比較により、平均的にRFが

最もよいことが分かっている。(Caruana et al., 2008)

理由2:RFは分散処理可能で、処理時間を短縮できる。 医療データは今後データ量が増大していくことが予想される。 MahoutにRFが実装されており、分散処理される。

比較アルゴリズム ANN, Logistic Regression, Naïve Bayes, KNN, SVM, Boosting, Random Forest, Bagged Decision Trees, Perceptron

使用データセット Sturn, Calam, Digits, Tis, Cryst, KDD98, R-S, Cite, Dse, Spam, Imdb

精度指標 精度, AUC, 二乗誤差

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 24: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

多数の決定木を構築する手法 個々の決定木にランダム性を組込み、高い汎化性能を実現

Random Forestとは

特徴量D>1

特徴量K>10

特徴量T<5

○ × ○ ×

決定木 Random Forest

○:AD患者 ×:健常者

24

ノード

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 25: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

MahoutのRandom Forest

25

Map

… モデル(Random

Forest

) …

トレーニングデータ

データを 分割配布

Map

復元抽出

決定木作成

パラメータ1

データ分割数 パラメータ2

決定木の本数 ※Partialモードでの動作

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 26: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

複数モダリティのRF(Grayらの手法) MRI

subject1 subject2

feature1 feature2 PET MRI+PET

+ 結合

Reduced MRI

Reduced PET

Reduced MRI+PET

精度=86.2

結合

精度=89.0

次元縮約

[Gray et al., 2012]

[Gray et al., 2012]

RF

RF

26

※ここで精度はAccuracyを指す。

データ結合モデル

縮約データ結合モデル

精度=81.6 精度=86.0 [Gray et al., 2012] [Gray et al., 2012]

RF RF

MRIモデル PETモデル

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 27: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

複数モダリティのRF(今回検証する手法) MRI

subject1 subject2

feature1 feature2 PET MRI+PET

+ 結合

RF

RF RF

27

MRIモデル PETモデル

データ結合モデル

+ 合成

モデル合成

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

検証① 検証②

検証③

検証④

Page 28: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

アルツハイマー病診断支援へ向けて

解析結果

Page 29: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

当社の検証環境(NSCCC)を利用。 Hadoop上でMahoutを利用。

環境

Hardware 構成 Server IBM BladeCenter HS21 Slave 13nodes OS RHEL 6.5 (64bit) CPU Intel Xeon CPU 5130 2.0GHz x4cores x2 Mem 8GB HDD 36GB x13

Master Slave

Sofware バージョン Hadoop cdh-4.5.0 Mahout mahout-0.7 R R-3.0.2

29 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 30: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

本研究では、(AD患者,健常者)×(陽性,陰性)の人数をa,b,c,dとして、 以下のような既存研究同様の精度指標を用いる。

精度指標

30

陽性 陰性 AD患者 a b 健常者 c d 指標 定義 意味 Accuracy 正確度

Acc = (a+d)/(a+b+c+d) 正解率

Basic Accuracy 基本正確度

Bacc = (Sens+Spec)/2 感度と特異度の平均

Sensitivity 感度

Sens = a/(a+b) 実際の患者のうち、どの程度陽性と判定できたか

Specificity 特異度

Spec = d/(c+d) 健常者のうち、どの程度陰性と判定できたか

※指標はCross Validationで計算する。 Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 31: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

再掲:検証の全体像

31

MRI subject1 subject2

feature1 feature2 PET

検証① 検証②

MRI+PET

+ 結合

検証③

RF

RF RF

MRIモデル PETモデル

データ結合モデル

+ 合成

検証④ モデル合成

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 32: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

検証①:MRIモデルのAD判別

70.075.080.085.090.095.0

100.0

10 20 50 100 200 500 1000 2000 5000 10000

精度

(%)

決定木の本数

Acc

Bacc

Sens

Spec

70.075.080.085.090.095.0

100.0

1 2 3 4 5

精度

(%)

データ分割数

Acc

Bacc

Sens

Spec

※データ分割数は3で固定

※決定木の本数は2000で固定

32

Acc=80.8%

データ分割数はあまり影響しない

決定木200本以上で精度が安定

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 33: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

検証②:PETモデルのAD判別

70.075.080.085.090.095.0

100.0

10 20 50 100 200 500 1000 2000 5000 10000

精度

(%)

決定木の本数

Acc

Bacc

Sens

Spec

70.075.080.085.090.095.0

100.0

1 2 3 4 5

精度

(%)

データ分割数

Acc

Bacc

Sens

Spec

33

※データ分割数は3で固定

※決定木の本数は2000で固定

Acc=86.7%

決定木200本以上で精度が安定

データ分割数は少ないほうが若干よい

MRIよりも精度が高い

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 34: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

検証③:MRI,PETデータ結合モデルのAD判別

34

70.075.080.085.090.095.0

100.0

10 20 50 100 200 500 1000 2000 5000 10000

精度

(%)

決定木の本数

Acc

Bacc

Sens

Spec

70.075.080.085.090.095.0

100.0

1 2 3 4 5

精度

(%)

データ分割数

Acc

Bacc

Sens

Spec

決定木200本以上で精度が安定

Acc=90.8%

※データ分割数は3で固定

※決定木の本数は2000で固定

データ分割数はあまり影響しない

MRI,PET単体よりも精度が高い

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 35: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

検証④:MRI,PETモデル合成のAD判別

70.0

75.0

80.0

85.0

90.0

95.0

100.0

0.0:

1.0

0.1:

0.9

0.2:

0.8

0.3:

0.7

0.4:

0.6

0.5:

0.5

0.6:

0.4

0.7:

0.3

0.8:

0.2

0.9:

0.1

1.0:

0.0

精度

(%)

決定木の本数のPET:MRI比率

Acc

Bacc

Sens

Spec

※MRI, PETともに以下の パラメータでモデル化 ・決定木の本数:2000 ・データ分割数:1

35

Acc=91.7% MRIとPETのモデル合成により 精度が向上する

MRI PET

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 36: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

81.6 86 86.2

89

81.8 86 87.1 89

79.8

86.8 85.1 87.9

83.8 85.1 86.1 90

7580859095

100AccBaccSensSpec

複数のモダリティを利用することで精度が向上した。 モデル合成は複数モダリティの機械学習に有効である。

検証結果

[参考]Gray et al., 2012の結果

本検証

36

80.8 86.7

90.8 91.7

82.1 87.5

91.5 92.2

85 90

93.3 95

79.2 85.1

89.7 89.3

7580859095

100AccBaccSensSpec

①MRI ②PET ③MRI+PET (データ結合)

④MRI+PET (モデル合成)

MRI PET MRI+PET

(データ結合) MRI+PET

(縮約+データ結合)

精度

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 37: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

分析ツールとしてのMahoutの可能性

37

• 大量データ・多変量データのモデリングができる

• モデルを組み合わせることで高精度化を実現できる

メリット

• JavaやHadoopの知識が必要

• アドホックな分析は不得意

デメリット

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

• 現時点ではRやRDBを併用することでカバー • 今後のSpark Bindingに期待

Page 38: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

RFによる特徴部位の抽出 RFモデルにおいて、上位ノードに頻出する特徴量は、 判別におけるAD特徴部位と解釈できる。

38

→ が重要な特徴量であると解釈できる。

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 39: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

MRIデータにおけるAD特徴部位 上から見た図

海馬

39

左から見た図

ADによる構造的変化が海馬周辺に現れている。

決定木に多く 現れる部位

決定木にほとんど 現れない部位

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 40: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

PETデータにおけるAD特徴部位

内包

後部帯状回

40

ADによる代謝量変化が後部帯状回に現れている。

上から見た図 左から見た図

決定木に多く 現れる部位

決定木にほとんど 現れない部位

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 41: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center

まとめ Mahoutを用いてAD判別を実施した。 複数のモダリティを合成することで精度が向上した。 モデルから得られた特徴部位は医学的知見と合致した。

今後の展望 軽度認知障害、プレクリニカルAD

の判別に本手法を適用する。 他のモダリティを追加し、

精度向上を図る。 脳脊髄液(CSF)成分の追加 遺伝子情報の追加

超早期診断支援のシステム化

まとめと今後の展望

41

引用)超早期アルツハイマー病の指標 づくりを目指す臨床研究 J-ADNI2 http://www.j-adni2.org/guide.html

今後のターゲット

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.

Page 42: Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Data Science & Infrastructure Technologies, Systems R&D Center 42

NS(ロゴ), NSSOL, NS Solutions, その他弊社サービスは、 新日鉄住金ソリューションズ株式会社の登録商標です。

その他本文記載の会社名及び製品名は、 それぞれ各社の商標または登録商標です。

ご清聴、ありがとうございました。

Copyright © 2014 NS Solutions Corporation, All Rights Reserved.